Import part 8

2026-06-02 11:46:24 +02:00 · 2026-06-02 11:46:24 +02:00 · c06099fe28
commit c06099fe28
parent 46e34bd207
9 changed files with 1516 additions and 0 deletions
--- a/llm-throughput-tests-mindef-metadateren/results/results_QuantTrio_Qwen3_5-35B-A3B-AWQ/ttft_heatmap.png
+++ b/llm-throughput-tests-mindef-metadateren/results/results_QuantTrio_Qwen3_5-35B-A3B-AWQ/ttft_heatmap.png
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-2x/benchmark_results.json
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-2x/benchmark_results.json
@ -0,0 +1,58 @@
+{
+  "timestamp": "2026-03-25T17:31:40.541181",
+  "model_name": "openai-gpt-oss-120b-2x",
+  "results": [
+    {
+      "config": {
+        "input_tokens": 50000,
+        "output_tokens": 1024,
+        "batch_size": 64,
+        "num_batches": 1,
+        "total_requests": 64,
+        "actual_input_tokens": 40443
+      },
+      "success_metrics": {
+        "success_rate": 50.0,
+        "successful_requests": 32,
+        "failed_requests": 32
+      },
+      "latency": {
+        "mean": 105.486,
+        "std": 0.648,
+        "min": 104.136,
+        "max": 106.488,
+        "p50": 105.577,
+        "p95": 106.447,
+        "p99": 106.484,
+        "ci_95_lower": 105.262,
+        "ci_95_upper": 105.711
+      },
+      "ttft": {
+        "mean": 105.486,
+        "std": 0.648,
+        "p50": 105.577,
+        "p90": 106.345
+      },
+      "tokens": {
+        "total_generated": 32768,
+        "content_tokens": 32768,
+        "reasoning_tokens": 0,
+        "avg_per_request": 1024.0
+      },
+      "throughput": {
+        "concurrent_total_tps": 307.59,
+        "concurrent_content_tps": 307.59,
+        "requests_per_second": 0.3,
+        "actual_wall_time": 106.533,
+        "efficiency_percent": 49.51
+      },
+      "batch_metrics": {
+        "num_batches": 1,
+        "avg_batch_size": 32.0,
+        "avg_batch_throughput": 307.59,
+        "min_batch_throughput": 307.59,
+        "max_batch_throughput": 307.59
+      }
+    }
+  ]
+}
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-2x/config_used.yaml
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-2x/config_used.yaml
@ -0,0 +1,20 @@
+endpoint:
+  url: https://46e73bba-0ed9-4853-b2b0-d4509aaab06b.services.external.0a71m37v.ubiops.io/v1
+  api_key: <REDACTED>
+  model_name: openai-gpt-oss-120b-2x
+benchmark:
+  input_tokens:
+  - 50000
+  batch_sizes:
+  - 64
+  num_batches: 1
+  output_tokens: 1024
+  dataset: test_conversations.json
+  text: null
+runtime:
+  request_timeout: 1800
+  delay_between_runs: 5
+  log_io: true
+  wait_for_ready: true
+  max_init_retries: 10
+  init_retry_delay: 30
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-litellm-streamiing/benchmark_results.json
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-litellm-streamiing/benchmark_results.json
@ -0,0 +1,58 @@
+{
+  "timestamp": "2026-03-12T09:40:09.623487",
+  "model_name": "openai-gpt-oss-120b",
+  "results": [
+    {
+      "config": {
+        "input_tokens": 50000,
+        "output_tokens": 512,
+        "batch_size": 64,
+        "num_batches": 1,
+        "total_requests": 64,
+        "actual_input_tokens": 40613
+      },
+      "success_metrics": {
+        "success_rate": 26.56,
+        "successful_requests": 17,
+        "failed_requests": 47
+      },
+      "latency": {
+        "mean": 101.447,
+        "std": 0.463,
+        "min": 100.168,
+        "max": 102.338,
+        "p50": 101.438,
+        "p95": 102.129,
+        "p99": 102.296,
+        "ci_95_lower": 101.227,
+        "ci_95_upper": 101.668
+      },
+      "ttft": {
+        "mean": 82.918,
+        "std": 6.278,
+        "p50": 82.795,
+        "p90": 86.47
+      },
+      "tokens": {
+        "total_generated": 8704,
+        "content_tokens": 6245,
+        "reasoning_tokens": 2459,
+        "avg_per_request": 512.0
+      },
+      "throughput": {
+        "concurrent_total_tps": 84.04,
+        "concurrent_content_tps": 60.3,
+        "requests_per_second": 0.16,
+        "actual_wall_time": 103.567,
+        "efficiency_percent": 26.02
+      },
+      "batch_metrics": {
+        "num_batches": 1,
+        "avg_batch_size": 17.0,
+        "avg_batch_throughput": 84.04,
+        "min_batch_throughput": 84.04,
+        "max_batch_throughput": 84.04
+      }
+    }
+  ]
+}
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-litellm-streamiing/config_used.yaml
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-litellm-streamiing/config_used.yaml
@ -0,0 +1,20 @@
+endpoint:
+  url: https://256980a6-7a84-4342-8481-7e0b7d838076.services.external.0a71m37v.ubiops.io/v1
+  api_key: <REDACTED>
+  model_name: openai-gpt-oss-120b
+benchmark:
+  input_tokens:
+  - 50000
+  batch_sizes:
+  - 64
+  num_batches: 1
+  output_tokens: 512
+  dataset: test_conversations.json
+  text: null
+runtime:
+  request_timeout: 1800
+  delay_between_runs: 5
+  log_io: true
+  wait_for_ready: true
+  max_init_retries: 10
+  init_retry_delay: 30
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-max-16/benchmark_results.json
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-max-16/benchmark_results.json
@ -0,0 +1,58 @@
+{
+  "timestamp": "2026-03-17T09:42:27.751665",
+  "model_name": "openai-gpt-oss-120b-max-16",
+  "results": [
+    {
+      "config": {
+        "input_tokens": 50000,
+        "output_tokens": 1024,
+        "batch_size": 16,
+        "num_batches": 1,
+        "total_requests": 16,
+        "actual_input_tokens": 40691
+      },
+      "success_metrics": {
+        "success_rate": 100.0,
+        "successful_requests": 16,
+        "failed_requests": 0
+      },
+      "latency": {
+        "mean": 105.895,
+        "std": 0.51,
+        "min": 104.893,
+        "max": 106.744,
+        "p50": 105.983,
+        "p95": 106.564,
+        "p99": 106.708,
+        "ci_95_lower": 105.645,
+        "ci_95_upper": 106.144
+      },
+      "ttft": {
+        "mean": 73.976,
+        "std": 2.6,
+        "p50": 73.007,
+        "p90": 76.235
+      },
+      "tokens": {
+        "total_generated": 16384,
+        "content_tokens": 14467,
+        "reasoning_tokens": 1917,
+        "avg_per_request": 1024.0
+      },
+      "throughput": {
+        "concurrent_total_tps": 153.35,
+        "concurrent_content_tps": 135.41,
+        "requests_per_second": 0.15,
+        "actual_wall_time": 106.84,
+        "efficiency_percent": 99.11
+      },
+      "batch_metrics": {
+        "num_batches": 1,
+        "avg_batch_size": 16.0,
+        "avg_batch_throughput": 153.35,
+        "min_batch_throughput": 153.35,
+        "max_batch_throughput": 153.35
+      }
+    }
+  ]
+}
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-max-16/config_used.yaml
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-max-16/config_used.yaml
@ -0,0 +1,20 @@
+endpoint:
+  url: https://46e73bba-0ed9-4853-b2b0-d4509aaab06b.services.external.0a71m37v.ubiops.io/v1
+  api_key: <REDACTED>
+  model_name: openai-gpt-oss-120b-max-16
+benchmark:
+  input_tokens:
+  - 50000
+  batch_sizes:
+  - 128
+  num_batches: 1
+  output_tokens: 1024
+  dataset: test_conversations.json
+  text: null
+runtime:
+  request_timeout: 1800
+  delay_between_runs: 5
+  log_io: true
+  wait_for_ready: true
+  max_init_retries: 10
+  init_retry_delay: 30
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai_gpt-oss-120b_services/benchmark_results.json
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai_gpt-oss-120b_services/benchmark_results.json
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai_gpt-oss-120b_services/config_used.yaml
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai_gpt-oss-120b_services/config_used.yaml
@ -0,0 +1,28 @@
+endpoint:
+  url: https://b60dd657-9ce2-4ba0-ad45-754b5be29238.services.external.0a71m37v.ubiops.io/v1
+  api_key: <REDACTED>
+  model_name: openai/gpt-oss-120b
+benchmark:
+  input_tokens:
+  - 1000
+  - 2500
+  - 5000
+  - 9000
+  batch_sizes:
+  - 1
+  - 8
+  - 16
+  - 24
+  - 32
+  - 64
+  num_batches: 1
+  output_tokens: 512
+  dataset: null
+  text: null
+runtime:
+  request_timeout: 300
+  delay_between_runs: 5
+  log_io: true
+  wait_for_ready: true
+  max_init_retries: 10
+  init_retry_delay: 30