fixed changes related to max_tokens and processing http error codes like 400 properly (#574)

Co-authored-by: Salman Paracha <salmanparacha@MacBook-Pro-257.local>
2026-05-18 13:45:15 +02:00 · 2025-09-25 17:00:37 -07:00 · 2025-09-25 17:00:37 -07:00 · 03c2cf6f0d
commit 03c2cf6f0d
parent 7ce8d44d8e
6 changed files with 157 additions and 23 deletions
--- a/demos/use_cases/model_alias_routing/arch_config_with_aliases.yaml
+++ b/demos/use_cases/model_alias_routing/arch_config_with_aliases.yaml
@ -10,10 +10,13 @@ listeners:
 llm_providers:

  # OpenAI Models
-  - model: openai/gpt-4o-mini
+  - model: openai/gpt-5-mini-2025-08-07
    access_key: $OPENAI_API_KEY
    default: true

+  - model: openai/gpt-4o-mini
+    access_key: $OPENAI_API_KEY
+
  - model: openai/o3
    access_key: $OPENAI_API_KEY

@ -41,7 +44,7 @@ llm_providers:
 model_aliases:
  # Alias for summarization tasks -> fast/cheap model
  arch.summarize.v1:
-    target: gpt-4o-mini
+    target: gpt-5-mini-2025-08-07

  # Alias for general purpose tasks -> latest model
  arch.v1:
@ -61,7 +64,7 @@ model_aliases:

  # Semantic aliases
  summary-model:
-    target: gpt-4o-mini
+    target: gpt-5-mini-2025-08-07

  chat-model:
    target: llama3.1