Import part 8

2026-06-02 11:46:24 +02:00 · 2026-06-02 11:46:24 +02:00 · c06099fe28
commit c06099fe28
parent 46e34bd207
9 changed files with 1516 additions and 0 deletions
--- a/llm-throughput-tests-mindef-metadateren/results/results_QuantTrio_Qwen3_5-35B-A3B-AWQ/ttft_heatmap.png
+++ b/llm-throughput-tests-mindef-metadateren/results/results_QuantTrio_Qwen3_5-35B-A3B-AWQ/ttft_heatmap.png
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-2x/benchmark_results.json
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-2x/benchmark_results.json
@ -0,0 +1,58 @@
 {
  "timestamp": "2026-03-25T17:31:40.541181",
  "model_name": "openai-gpt-oss-120b-2x",
  "results": [
    {
      "config": {
        "input_tokens": 50000,
        "output_tokens": 1024,
        "batch_size": 64,
        "num_batches": 1,
        "total_requests": 64,
        "actual_input_tokens": 40443
      },
      "success_metrics": {
        "success_rate": 50.0,
        "successful_requests": 32,
        "failed_requests": 32
      },
      "latency": {
        "mean": 105.486,
        "std": 0.648,
        "min": 104.136,
        "max": 106.488,
        "p50": 105.577,
        "p95": 106.447,
        "p99": 106.484,
        "ci_95_lower": 105.262,
        "ci_95_upper": 105.711
      },
      "ttft": {
        "mean": 105.486,
        "std": 0.648,
        "p50": 105.577,
        "p90": 106.345
      },
      "tokens": {
        "total_generated": 32768,
        "content_tokens": 32768,
        "reasoning_tokens": 0,
        "avg_per_request": 1024.0
      },
      "throughput": {
        "concurrent_total_tps": 307.59,
        "concurrent_content_tps": 307.59,
        "requests_per_second": 0.3,
        "actual_wall_time": 106.533,
        "efficiency_percent": 49.51
      },
      "batch_metrics": {
        "num_batches": 1,
        "avg_batch_size": 32.0,
        "avg_batch_throughput": 307.59,
        "min_batch_throughput": 307.59,
        "max_batch_throughput": 307.59
      }
    }
  ]
 }
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-2x/config_used.yaml
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-2x/config_used.yaml
@ -0,0 +1,20 @@
 endpoint:
  url: https://46e73bba-0ed9-4853-b2b0-d4509aaab06b.services.external.0a71m37v.ubiops.io/v1
  api_key: <REDACTED>
  model_name: openai-gpt-oss-120b-2x
 benchmark:
  input_tokens:
  - 50000
  batch_sizes:
  - 64
  num_batches: 1
  output_tokens: 1024
  dataset: test_conversations.json
  text: null
 runtime:
  request_timeout: 1800
  delay_between_runs: 5
  log_io: true
  wait_for_ready: true
  max_init_retries: 10
  init_retry_delay: 30
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-litellm-streamiing/benchmark_results.json
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-litellm-streamiing/benchmark_results.json
@ -0,0 +1,58 @@
 {
  "timestamp": "2026-03-12T09:40:09.623487",
  "model_name": "openai-gpt-oss-120b",
  "results": [
    {
      "config": {
        "input_tokens": 50000,
        "output_tokens": 512,
        "batch_size": 64,
        "num_batches": 1,
        "total_requests": 64,
        "actual_input_tokens": 40613
      },
      "success_metrics": {
        "success_rate": 26.56,
        "successful_requests": 17,
        "failed_requests": 47
      },
      "latency": {
        "mean": 101.447,
        "std": 0.463,
        "min": 100.168,
        "max": 102.338,
        "p50": 101.438,
        "p95": 102.129,
        "p99": 102.296,
        "ci_95_lower": 101.227,
        "ci_95_upper": 101.668
      },
      "ttft": {
        "mean": 82.918,
        "std": 6.278,
        "p50": 82.795,
        "p90": 86.47
      },
      "tokens": {
        "total_generated": 8704,
        "content_tokens": 6245,
        "reasoning_tokens": 2459,
        "avg_per_request": 512.0
      },
      "throughput": {
        "concurrent_total_tps": 84.04,
        "concurrent_content_tps": 60.3,
        "requests_per_second": 0.16,
        "actual_wall_time": 103.567,
        "efficiency_percent": 26.02
      },
      "batch_metrics": {
        "num_batches": 1,
        "avg_batch_size": 17.0,
        "avg_batch_throughput": 84.04,
        "min_batch_throughput": 84.04,
        "max_batch_throughput": 84.04
      }
    }
  ]
 }
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-litellm-streamiing/config_used.yaml
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-litellm-streamiing/config_used.yaml
@ -0,0 +1,20 @@
 endpoint:
  url: https://256980a6-7a84-4342-8481-7e0b7d838076.services.external.0a71m37v.ubiops.io/v1
  api_key: <REDACTED>
  model_name: openai-gpt-oss-120b
 benchmark:
  input_tokens:
  - 50000
  batch_sizes:
  - 64
  num_batches: 1
  output_tokens: 512
  dataset: test_conversations.json
  text: null
 runtime:
  request_timeout: 1800
  delay_between_runs: 5
  log_io: true
  wait_for_ready: true
  max_init_retries: 10
  init_retry_delay: 30
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-max-16/benchmark_results.json
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-max-16/benchmark_results.json
@ -0,0 +1,58 @@
 {
  "timestamp": "2026-03-17T09:42:27.751665",
  "model_name": "openai-gpt-oss-120b-max-16",
  "results": [
    {
      "config": {
        "input_tokens": 50000,
        "output_tokens": 1024,
        "batch_size": 16,
        "num_batches": 1,
        "total_requests": 16,
        "actual_input_tokens": 40691
      },
      "success_metrics": {
        "success_rate": 100.0,
        "successful_requests": 16,
        "failed_requests": 0
      },
      "latency": {
        "mean": 105.895,
        "std": 0.51,
        "min": 104.893,
        "max": 106.744,
        "p50": 105.983,
        "p95": 106.564,
        "p99": 106.708,
        "ci_95_lower": 105.645,
        "ci_95_upper": 106.144
      },
      "ttft": {
        "mean": 73.976,
        "std": 2.6,
        "p50": 73.007,
        "p90": 76.235
      },
      "tokens": {
        "total_generated": 16384,
        "content_tokens": 14467,
        "reasoning_tokens": 1917,
        "avg_per_request": 1024.0
      },
      "throughput": {
        "concurrent_total_tps": 153.35,
        "concurrent_content_tps": 135.41,
        "requests_per_second": 0.15,
        "actual_wall_time": 106.84,
        "efficiency_percent": 99.11
      },
      "batch_metrics": {
        "num_batches": 1,
        "avg_batch_size": 16.0,
        "avg_batch_throughput": 153.35,
        "min_batch_throughput": 153.35,
        "max_batch_throughput": 153.35
      }
    }
  ]
 }
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-max-16/config_used.yaml
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai-gpt-oss-120b-max-16/config_used.yaml
@ -0,0 +1,20 @@
 endpoint:
  url: https://46e73bba-0ed9-4853-b2b0-d4509aaab06b.services.external.0a71m37v.ubiops.io/v1
  api_key: <REDACTED>
  model_name: openai-gpt-oss-120b-max-16
 benchmark:
  input_tokens:
  - 50000
  batch_sizes:
  - 128
  num_batches: 1
  output_tokens: 1024
  dataset: test_conversations.json
  text: null
 runtime:
  request_timeout: 1800
  delay_between_runs: 5
  log_io: true
  wait_for_ready: true
  max_init_retries: 10
  init_retry_delay: 30
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai_gpt-oss-120b_services/benchmark_results.json
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai_gpt-oss-120b_services/benchmark_results.json
--- a/llm-throughput-tests-mindef-metadateren/results/results_openai_gpt-oss-120b_services/config_used.yaml
+++ b/llm-throughput-tests-mindef-metadateren/results/results_openai_gpt-oss-120b_services/config_used.yaml
@ -0,0 +1,28 @@
 endpoint:
  url: https://b60dd657-9ce2-4ba0-ad45-754b5be29238.services.external.0a71m37v.ubiops.io/v1
  api_key: <REDACTED>
  model_name: openai/gpt-oss-120b
 benchmark:
  input_tokens:
  - 1000
  - 2500
  - 5000
  - 9000
  batch_sizes:
  - 1
  - 8
  - 16
  - 24
  - 32
  - 64
  num_batches: 1
  output_tokens: 512
  dataset: null
  text: null
 runtime:
  request_timeout: 300
  delay_between_runs: 5
  log_io: true
  wait_for_ready: true
  max_init_retries: 10
  init_retry_delay: 30