deploy: 897fda2deb

2026-06-08 14:55:14 +02:00 · 2026-04-24 19:32:15 +00:00 · 2026-04-24 19:32:15 +00:00 · 805883eadb
commit 805883eadb
parent 5ede678869
6 changed files with 547 additions and 393 deletions
--- a/_downloads/c86f9e8fb1f2994b1ba4a0b98481410e/plano_config_full_reference.yaml
+++ b/_downloads/c86f9e8fb1f2994b1ba4a0b98481410e/plano_config_full_reference.yaml
@ -1,5 +1,5 @@
 # Plano Gateway configuration version
-version: v0.3.0
+version: v0.4.0

 # External HTTP agents - API type is controlled by request path (/v1/responses, /v1/messages, /v1/chat/completions)
 agents:
@ -32,17 +32,8 @@ model_providers:
  - model: mistral/ministral-3b-latest
    access_key: $MISTRAL_API_KEY

-  # routing_preferences: tags a model with named capabilities so Plano's LLM router
-  # can select the best model for each request based on intent. Requires the
-  # Plano-Orchestrator model (or equivalent) to be configured in overrides.llm_routing_model.
-  # Each preference has a name (short label) and a description (used for intent matching).
  - model: groq/llama-3.3-70b-versatile
    access_key: $GROQ_API_KEY
-    routing_preferences:
-      - name: code generation
-        description: generating new code snippets, functions, or boilerplate based on user prompts or requirements
-      - name: code review
-        description: reviewing, analyzing, and suggesting improvements to existing code

  # passthrough_auth: forwards the client's Authorization header upstream instead of
  # using the configured access_key. Useful for LiteLLM or similar proxy setups.
@ -64,6 +55,29 @@ model_aliases:
  smart-llm:
    target: gpt-4o

+# routing_preferences: top-level list that tags named task categories with an
+# ordered pool of candidate models. Plano's LLM router matches incoming requests
+# against these descriptions and returns an ordered list of models; the client
+# uses models[0] as primary and retries with models[1], models[2]... on 429/5xx.
+# Requires overrides.llm_routing_model to point at Plano-Orchestrator (or equivalent).
+# Each model in `models` must be declared in model_providers above.
+# selection_policy is optional: {prefer: cheapest|fastest|none} lets the router
+# reorder candidates using live cost/latency data from model_metrics_sources.
+routing_preferences:
+  - name: code generation
+    description: generating new code snippets, functions, or boilerplate based on user prompts or requirements
+    models:
+      - anthropic/claude-sonnet-4-0
+      - openai/gpt-4o
+      - groq/llama-3.3-70b-versatile
+  - name: code review
+    description: reviewing, analyzing, and suggesting improvements to existing code
+    models:
+      - anthropic/claude-sonnet-4-0
+      - groq/llama-3.3-70b-versatile
+    selection_policy:
+      prefer: cheapest
+
 # HTTP listeners - entry points for agent routing, prompt targets, and direct LLM access
 listeners:
  # Agent listener for routing requests to multiple agents
--- a/concepts/llm_providers/supported_providers.html
+++ b/concepts/llm_providers/supported_providers.html
@ -330,29 +330,35 @@ Any provider that implements the OpenAI API interface can be configured using cu
 </tbody>
 </table>
 <p><strong>Configuration Examples:</strong></p>
-<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">llm_providers</span><span class="p">:</span>
-</span><span id="line-2"><span class="w">  </span><span class="c1"># Configure all Anthropic models with wildcard</span>
-</span><span id="line-3"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/*</span>
-</span><span id="line-4"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-5">
-</span><span id="line-6"><span class="w">  </span><span class="c1"># Or configure specific models</span>
-</span><span id="line-7"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-opus-4-5</span>
-</span><span id="line-8"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-9">
-</span><span id="line-10"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
-</span><span id="line-11"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-12">
-</span><span id="line-13"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-haiku-4-5</span>
-</span><span id="line-14"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-15">
-</span><span id="line-16"><span class="w">  </span><span class="c1"># Override specific model with custom routing</span>
-</span><span id="line-17"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/*</span>
-</span><span id="line-18"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-19">
-</span><span id="line-20"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-20250514</span>
-</span><span id="line-21"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_PROD_API_KEY</span>
-</span><span id="line-22"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-23"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code_generation</span>
+<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">version</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">v0.4.0</span>
+</span><span id="line-2">
+</span><span id="line-3"><span class="nt">model_providers</span><span class="p">:</span>
+</span><span id="line-4"><span class="w">  </span><span class="c1"># Configure all Anthropic models with wildcard</span>
+</span><span id="line-5"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/*</span>
+</span><span id="line-6"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
+</span><span id="line-7">
+</span><span id="line-8"><span class="w">  </span><span class="c1"># Or configure specific models</span>
+</span><span id="line-9"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-opus-4-5</span>
+</span><span id="line-10"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
+</span><span id="line-11">
+</span><span id="line-12"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-13"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
+</span><span id="line-14">
+</span><span id="line-15"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-haiku-4-5</span>
+</span><span id="line-16"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
+</span><span id="line-17">
+</span><span id="line-18"><span class="w">  </span><span class="c1"># Override specific model with custom routing</span>
+</span><span id="line-19"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/*</span>
+</span><span id="line-20"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
+</span><span id="line-21">
+</span><span id="line-22"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-20250514</span>
+</span><span id="line-23"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_PROD_API_KEY</span>
+</span><span id="line-24">
+</span><span id="line-25"><span class="nt">routing_preferences</span><span class="p">:</span>
+</span><span id="line-26"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code_generation</span>
+</span><span id="line-27"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">generating new code snippets, functions, or boilerplate based on user prompts or requirements</span>
+</span><span id="line-28"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-29"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-20250514</span>
 </span></code></pre></div>
 </div>
 </section>
@ -969,22 +975,27 @@ Any provider that implements the OpenAI API interface can be configured using cu
 </ol>
 <p><strong>Overriding Wildcard Models:</strong></p>
 <p>You can configure specific models with custom settings even when using wildcards. Specific configurations take precedence and are excluded from wildcard expansion:</p>
-<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">llm_providers</span><span class="p">:</span>
-</span><span id="line-2"><span class="w">  </span><span class="c1"># Expand to all Anthropic models</span>
-</span><span id="line-3"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/*</span>
-</span><span id="line-4"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-5">
-</span><span id="line-6"><span class="w">  </span><span class="c1"># Override specific model with custom settings</span>
-</span><span id="line-7"><span class="w">  </span><span class="c1"># This model will NOT be included in the wildcard expansion above</span>
-</span><span id="line-8"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-20250514</span>
-</span><span id="line-9"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_PROD_API_KEY</span>
-</span><span id="line-10"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-11"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code_generation</span>
-</span><span id="line-12"><span class="w">        </span><span class="nt">priority</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">1</span>
-</span><span id="line-13">
-</span><span id="line-14"><span class="w">  </span><span class="c1"># Another specific override</span>
-</span><span id="line-15"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-3-haiku-20240307</span>
-</span><span id="line-16"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_DEV_API_KEY</span>
+<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">version</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">v0.4.0</span>
+</span><span id="line-2">
+</span><span id="line-3"><span class="nt">model_providers</span><span class="p">:</span>
+</span><span id="line-4"><span class="w">  </span><span class="c1"># Expand to all Anthropic models</span>
+</span><span id="line-5"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/*</span>
+</span><span id="line-6"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
+</span><span id="line-7">
+</span><span id="line-8"><span class="w">  </span><span class="c1"># Override specific model with custom settings</span>
+</span><span id="line-9"><span class="w">  </span><span class="c1"># This model will NOT be included in the wildcard expansion above</span>
+</span><span id="line-10"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-20250514</span>
+</span><span id="line-11"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_PROD_API_KEY</span>
+</span><span id="line-12">
+</span><span id="line-13"><span class="w">  </span><span class="c1"># Another specific override</span>
+</span><span id="line-14"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-3-haiku-20240307</span>
+</span><span id="line-15"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_DEV_API_KEY</span>
+</span><span id="line-16">
+</span><span id="line-17"><span class="nt">routing_preferences</span><span class="p">:</span>
+</span><span id="line-18"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code_generation</span>
+</span><span id="line-19"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">generating new code snippets, functions, or boilerplate based on user prompts or requirements</span>
+</span><span id="line-20"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-21"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-20250514</span>
 </span></code></pre></div>
 </div>
 <p><strong>Custom Provider Wildcards:</strong></p>
@ -1023,23 +1034,36 @@ Any provider that implements the OpenAI API interface can be configured using cu
 </section>
 <section id="routing-preferences">
 <h3>Routing Preferences<a @click.prevent="window.navigator.clipboard.writeText($el.href); $el.setAttribute('data-tooltip', 'Copied!'); setTimeout(() =&gt; $el.setAttribute('data-tooltip', 'Copy link to this element'), 2000)" aria-label="Copy link to this element" class="headerlink" data-tooltip="Copy link to this element" href="#routing-preferences" x-intersect.margin.0%.0%.-70%.0%="activeSection = '#routing-preferences'"><svg height="1em" viewbox="0 0 24 24" width="1em" xmlns="http://www.w3.org/2000/svg"><path d="M3.9 12c0-1.71 1.39-3.1 3.1-3.1h4V7H7c-2.76 0-5 2.24-5 5s2.24 5 5 5h4v-1.9H7c-1.71 0-3.1-1.39-3.1-3.1zM8 13h8v-2H8v2zm9-6h-4v1.9h4c1.71 0 3.1 1.39 3.1 3.1s-1.39 3.1-3.1 3.1h-4V17h4c2.76 0 5-2.24 5-5s-2.24-5-5-5z"></path></svg></a></h3>
-<p>Configure routing preferences for dynamic model selection:</p>
-<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">llm_providers</span><span class="p">:</span>
-</span><span id="line-2"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
-</span><span id="line-3"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
-</span><span id="line-4"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-5"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">complex_reasoning</span>
-</span><span id="line-6"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">deep analysis, mathematical problem solving, and logical reasoning</span>
-</span><span id="line-7"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code_review</span>
-</span><span id="line-8"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">reviewing and analyzing existing code for bugs and improvements</span>
+<p>Starting in <code class="docutils literal notranslate"><span class="pre">v0.4.0</span></code>, configure routing preferences at the top level of the config. Each preference declares an ordered <code class="docutils literal notranslate"><span class="pre">models</span></code> candidate pool; the first entry is primary and the rest are fallbacks the client tries on <code class="docutils literal notranslate"><span class="pre">429</span></code>/<code class="docutils literal notranslate"><span class="pre">5xx</span></code> errors. Multiple providers can serve the same route — just list them all under <code class="docutils literal notranslate"><span class="pre">models</span></code>. See <a class="reference internal" href="../../guides/llm_router.html"><span class="doc">LLM Routing</span></a> for the full routing model.</p>
+<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">version</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">v0.4.0</span>
+</span><span id="line-2">
+</span><span id="line-3"><span class="nt">model_providers</span><span class="p">:</span>
+</span><span id="line-4"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
+</span><span id="line-5"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
+</span><span id="line-6">
+</span><span id="line-7"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-8"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
 </span><span id="line-9">
-</span><span id="line-10"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
-</span><span id="line-11"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-12"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-13"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative_writing</span>
-</span><span id="line-14"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative content generation, storytelling, and writing assistance</span>
+</span><span id="line-10"><span class="nt">routing_preferences</span><span class="p">:</span>
+</span><span id="line-11"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">complex_reasoning</span>
+</span><span id="line-12"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">deep analysis, mathematical problem solving, and logical reasoning</span>
+</span><span id="line-13"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-14"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
+</span><span id="line-15"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-16"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code_review</span>
+</span><span id="line-17"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">reviewing and analyzing existing code for bugs and improvements</span>
+</span><span id="line-18"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-19"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
+</span><span id="line-20"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative_writing</span>
+</span><span id="line-21"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative content generation, storytelling, and writing assistance</span>
+</span><span id="line-22"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-23"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
 </span></code></pre></div>
 </div>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p><code class="docutils literal notranslate"><span class="pre">v0.3.0</span></code> configs that declare <code class="docutils literal notranslate"><span class="pre">routing_preferences</span></code> inline under each <code class="docutils literal notranslate"><span class="pre">model_provider</span></code> are auto-migrated to this top-level shape by the Plano CLI at compile time, with a deprecation warning. Update to the form above to silence the warning and gain the multi-model fallback behavior.</p>
+</div>
 </section>
 <section id="passthrough-authentication">
 <span id="passthrough-auth"></span><h3>Passthrough Authentication<a @click.prevent="window.navigator.clipboard.writeText($el.href); $el.setAttribute('data-tooltip', 'Copied!'); setTimeout(() =&gt; $el.setAttribute('data-tooltip', 'Copy link to this element'), 2000)" aria-label="Copy link to this element" class="headerlink" data-tooltip="Copy link to this element" href="#passthrough-authentication" x-intersect.margin.0%.0%.-70%.0%="activeSection = '#passthrough-authentication'"><svg height="1em" viewbox="0 0 24 24" width="1em" xmlns="http://www.w3.org/2000/svg"><path d="M3.9 12c0-1.71 1.39-3.1 3.1-3.1h4V7H7c-2.76 0-5 2.24-5 5s2.24 5 5 5h4v-1.9H7c-1.71 0-3.1-1.39-3.1-3.1zM8 13h8v-2H8v2zm9-6h-4v1.9h4c1.71 0 3.1 1.39 3.1 3.1s-1.39 3.1-3.1 3.1h-4V17h4c2.76 0 5-2.24 5-5s-2.24-5-5-5z"></path></svg></a></h3>
--- a/guides/llm_router.html
+++ b/guides/llm_router.html
@ -292,39 +292,55 @@
 <p>Plano-Orchestrator analyzes each prompt to infer domain and action, then applies your preferences to select a model. This decouples <strong>routing policy</strong> (how to choose) from <strong>model assignment</strong> (what to run), making routing transparent, controllable, and easy to extend as you add or swap models.</p>
 <section id="id5">
 <h4>Configuration<a @click.prevent="window.navigator.clipboard.writeText($el.href); $el.setAttribute('data-tooltip', 'Copied!'); setTimeout(() =&gt; $el.setAttribute('data-tooltip', 'Copy link to this element'), 2000)" aria-label="Copy link to this element" class="headerlink" data-tooltip="Copy link to this element" href="#id5"><svg height="1em" viewbox="0 0 24 24" width="1em" xmlns="http://www.w3.org/2000/svg"><path d="M3.9 12c0-1.71 1.39-3.1 3.1-3.1h4V7H7c-2.76 0-5 2.24-5 5s2.24 5 5 5h4v-1.9H7c-1.71 0-3.1-1.39-3.1-3.1zM8 13h8v-2H8v2zm9-6h-4v1.9h4c1.71 0 3.1 1.39 3.1 3.1s-1.39 3.1-3.1 3.1h-4V17h4c2.76 0 5-2.24 5-5s-2.24-5-5-5z"></path></svg></a></h4>
-<p>To configure preference-aligned dynamic routing, define routing preferences that map domains and actions to specific models:</p>
+<p>To configure preference-aligned dynamic routing, declare a top-level <code class="docutils literal notranslate"><span class="pre">routing_preferences</span></code> list and attach an ordered <code class="docutils literal notranslate"><span class="pre">models</span></code> candidate pool to each route. Starting in <code class="docutils literal notranslate"><span class="pre">v0.4.0</span></code>, <code class="docutils literal notranslate"><span class="pre">routing_preferences</span></code> lives at the root of the config (not inline under <code class="docutils literal notranslate"><span class="pre">model_providers</span></code>), which lets multiple models serve the same route — the first entry in <code class="docutils literal notranslate"><span class="pre">models</span></code> is primary, the rest are fallbacks that the client tries on <code class="docutils literal notranslate"><span class="pre">429</span></code>/<code class="docutils literal notranslate"><span class="pre">5xx</span></code> errors.</p>
 <div class="literal-block-wrapper docutils container" id="id11">
 <div class="code-block-caption"><span class="caption-text">Preference-Aligned Dynamic Routing Configuration</span><a @click.prevent="window.navigator.clipboard.writeText($el.href); $el.setAttribute('data-tooltip', 'Copied!'); setTimeout(() =&gt; $el.setAttribute('data-tooltip', 'Copy link to this element'), 2000)" aria-label="Copy link to this element" class="headerlink" data-tooltip="Copy link to this element" href="#id11"><svg height="1em" viewbox="0 0 24 24" width="1em" xmlns="http://www.w3.org/2000/svg"><path d="M3.9 12c0-1.71 1.39-3.1 3.1-3.1h4V7H7c-2.76 0-5 2.24-5 5s2.24 5 5 5h4v-1.9H7c-1.71 0-3.1-1.39-3.1-3.1zM8 13h8v-2H8v2zm9-6h-4v1.9h4c1.71 0 3.1 1.39 3.1 3.1s-1.39 3.1-3.1 3.1h-4V17h4c2.76 0 5-2.24 5-5s-2.24-5-5-5z"></path></svg></a></div>
-<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">listeners</span><span class="p">:</span>
-</span><span id="line-2"><span class="w">  </span><span class="nt">egress_traffic</span><span class="p">:</span>
-</span><span id="line-3"><span class="w">    </span><span class="nt">address</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.0.0.0</span>
-</span><span id="line-4"><span class="w">    </span><span class="nt">port</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">12000</span>
-</span><span id="line-5"><span class="w">    </span><span class="nt">message_format</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai</span>
-</span><span id="line-6"><span class="w">    </span><span class="nt">timeout</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">30s</span>
-</span><span id="line-7">
-</span><span id="line-8"><span class="nt">llm_providers</span><span class="p">:</span>
-</span><span id="line-9"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
-</span><span id="line-10"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
-</span><span id="line-11"><span class="w">    </span><span class="nt">default</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
-</span><span id="line-12">
-</span><span id="line-13"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5</span>
-</span><span id="line-14"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
-</span><span id="line-15"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-16"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code understanding</span>
-</span><span id="line-17"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">understand and explain existing code snippets, functions, or libraries</span>
-</span><span id="line-18"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">complex reasoning</span>
-</span><span id="line-19"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">deep analysis, mathematical problem solving, and logical reasoning</span>
+<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">version</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">v0.4.0</span>
+</span><span id="line-2">
+</span><span id="line-3"><span class="nt">listeners</span><span class="p">:</span>
+</span><span id="line-4"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">egress_traffic</span>
+</span><span id="line-5"><span class="w">    </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">model</span>
+</span><span id="line-6"><span class="w">    </span><span class="nt">address</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.0.0.0</span>
+</span><span id="line-7"><span class="w">    </span><span class="nt">port</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">12000</span>
+</span><span id="line-8"><span class="w">    </span><span class="nt">timeout</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">30s</span>
+</span><span id="line-9">
+</span><span id="line-10"><span class="nt">model_providers</span><span class="p">:</span>
+</span><span id="line-11"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
+</span><span id="line-12"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
+</span><span id="line-13"><span class="w">    </span><span class="nt">default</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
+</span><span id="line-14">
+</span><span id="line-15"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5</span>
+</span><span id="line-16"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
+</span><span id="line-17">
+</span><span id="line-18"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-19"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
 </span><span id="line-20">
-</span><span id="line-21"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
-</span><span id="line-22"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-23"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-24"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative writing</span>
-</span><span id="line-25"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative content generation, storytelling, and writing assistance</span>
-</span><span id="line-26"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code generation</span>
-</span><span id="line-27"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">generating new code snippets, functions, or boilerplate based on user prompts</span>
+</span><span id="line-21"><span class="nt">routing_preferences</span><span class="p">:</span>
+</span><span id="line-22"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code understanding</span>
+</span><span id="line-23"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">understand and explain existing code snippets, functions, or libraries</span>
+</span><span id="line-24"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-25"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5</span>
+</span><span id="line-26"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-27"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">complex reasoning</span>
+</span><span id="line-28"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">deep analysis, mathematical problem solving, and logical reasoning</span>
+</span><span id="line-29"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-30"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5</span>
+</span><span id="line-31"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative writing</span>
+</span><span id="line-32"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative content generation, storytelling, and writing assistance</span>
+</span><span id="line-33"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-34"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-35"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code generation</span>
+</span><span id="line-36"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">generating new code snippets, functions, or boilerplate based on user prompts</span>
+</span><span id="line-37"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-38"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-39"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5</span>
 </span></code></pre></div>
 </div>
 </div>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>Configs still using the <code class="docutils literal notranslate"><span class="pre">v0.3.0</span></code> inline style (<code class="docutils literal notranslate"><span class="pre">routing_preferences</span></code> nested under each <code class="docutils literal notranslate"><span class="pre">model_provider</span></code>) are auto-migrated to this top-level shape by the Plano CLI at compile time, with a deprecation warning. Update your config to the form above to silence the warning.</p>
+</div>
 </section>
 <section id="id6">
 <h4>Client usage<a @click.prevent="window.navigator.clipboard.writeText($el.href); $el.setAttribute('data-tooltip', 'Copied!'); setTimeout(() =&gt; $el.setAttribute('data-tooltip', 'Copy link to this element'), 2000)" aria-label="Copy link to this element" class="headerlink" data-tooltip="Copy link to this element" href="#id6"><svg height="1em" viewbox="0 0 24 24" width="1em" xmlns="http://www.w3.org/2000/svg"><path d="M3.9 12c0-1.71 1.39-3.1 3.1-3.1h4V7H7c-2.76 0-5 2.24-5 5s2.24 5 5 5h4v-1.9H7c-1.71 0-3.1-1.39-3.1-3.1zM8 13h8v-2H8v2zm9-6h-4v1.9h4c1.71 0 3.1 1.39 3.1 3.1s-1.39 3.1-3.1 3.1h-4V17h4c2.76 0 5-2.24 5-5s-2.24-5-5-5z"></path></svg></a></h4>
@ -380,22 +396,27 @@ Provides a practical mechanism to encode user preferences through domain-action
 <p>This downloads the quantized GGUF model from HuggingFace and starts serving on <code class="docutils literal notranslate"><span class="pre">http://localhost:11434</span></code>.</p>
 </li>
 <li><p><strong>Configure Plano to use local routing model</strong></p>
-<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">overrides</span><span class="p">:</span>
-</span><span id="line-2"><span class="w">  </span><span class="nt">llm_routing_model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano/hf.co/katanemo/Arch-Router-1.5B.gguf:Q4_K_M</span>
-</span><span id="line-3">
-</span><span id="line-4"><span class="nt">model_providers</span><span class="p">:</span>
-</span><span id="line-5"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano/hf.co/katanemo/Arch-Router-1.5B.gguf:Q4_K_M</span>
-</span><span id="line-6"><span class="w">    </span><span class="nt">base_url</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">http://localhost:11434</span>
-</span><span id="line-7">
-</span><span id="line-8"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
-</span><span id="line-9"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
-</span><span id="line-10"><span class="w">    </span><span class="nt">default</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
-</span><span id="line-11">
-</span><span id="line-12"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
-</span><span id="line-13"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-14"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-15"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative writing</span>
-</span><span id="line-16"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative content generation, storytelling, and writing assistance</span>
+<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">version</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">v0.4.0</span>
+</span><span id="line-2">
+</span><span id="line-3"><span class="nt">overrides</span><span class="p">:</span>
+</span><span id="line-4"><span class="w">  </span><span class="nt">llm_routing_model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano/hf.co/katanemo/Arch-Router-1.5B.gguf:Q4_K_M</span>
+</span><span id="line-5">
+</span><span id="line-6"><span class="nt">model_providers</span><span class="p">:</span>
+</span><span id="line-7"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano/hf.co/katanemo/Arch-Router-1.5B.gguf:Q4_K_M</span>
+</span><span id="line-8"><span class="w">    </span><span class="nt">base_url</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">http://localhost:11434</span>
+</span><span id="line-9">
+</span><span id="line-10"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
+</span><span id="line-11"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
+</span><span id="line-12"><span class="w">    </span><span class="nt">default</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
+</span><span id="line-13">
+</span><span id="line-14"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-15"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
+</span><span id="line-16">
+</span><span id="line-17"><span class="nt">routing_preferences</span><span class="p">:</span>
+</span><span id="line-18"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative writing</span>
+</span><span id="line-19"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative content generation, storytelling, and writing assistance</span>
+</span><span id="line-20"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-21"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
 </span></code></pre></div>
 </div>
 </li>
@ -442,22 +463,27 @@ Provides a practical mechanism to encode user preferences through domain-action
 </div>
 </li>
 <li><p><strong>Configure Plano to use the vLLM endpoint</strong></p>
-<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">overrides</span><span class="p">:</span>
-</span><span id="line-2"><span class="w">  </span><span class="nt">llm_routing_model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano/Plano-Orchestrator</span>
-</span><span id="line-3">
-</span><span id="line-4"><span class="nt">model_providers</span><span class="p">:</span>
-</span><span id="line-5"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano/Plano-Orchestrator</span>
-</span><span id="line-6"><span class="w">    </span><span class="nt">base_url</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">http://&lt;your-server-ip&gt;:10000</span>
-</span><span id="line-7">
-</span><span id="line-8"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
-</span><span id="line-9"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
-</span><span id="line-10"><span class="w">    </span><span class="nt">default</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
-</span><span id="line-11">
-</span><span id="line-12"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
-</span><span id="line-13"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-14"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-15"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative writing</span>
-</span><span id="line-16"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative content generation, storytelling, and writing assistance</span>
+<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">version</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">v0.4.0</span>
+</span><span id="line-2">
+</span><span id="line-3"><span class="nt">overrides</span><span class="p">:</span>
+</span><span id="line-4"><span class="w">  </span><span class="nt">llm_routing_model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano/Plano-Orchestrator</span>
+</span><span id="line-5">
+</span><span id="line-6"><span class="nt">model_providers</span><span class="p">:</span>
+</span><span id="line-7"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano/Plano-Orchestrator</span>
+</span><span id="line-8"><span class="w">    </span><span class="nt">base_url</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">http://&lt;your-server-ip&gt;:10000</span>
+</span><span id="line-9">
+</span><span id="line-10"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
+</span><span id="line-11"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
+</span><span id="line-12"><span class="w">    </span><span class="nt">default</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
+</span><span id="line-13">
+</span><span id="line-14"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-15"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
+</span><span id="line-16">
+</span><span id="line-17"><span class="nt">routing_preferences</span><span class="p">:</span>
+</span><span id="line-18"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative writing</span>
+</span><span id="line-19"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative content generation, storytelling, and writing assistance</span>
+</span><span id="line-20"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-21"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
 </span></code></pre></div>
 </div>
 </li>
@ -565,34 +591,42 @@ instead of a file.</p></li>
 <p>You can combine static model selection with dynamic routing preferences for maximum flexibility:</p>
 <div class="literal-block-wrapper docutils container" id="id12">
 <div class="code-block-caption"><span class="caption-text">Hybrid Routing Configuration</span><a @click.prevent="window.navigator.clipboard.writeText($el.href); $el.setAttribute('data-tooltip', 'Copied!'); setTimeout(() =&gt; $el.setAttribute('data-tooltip', 'Copy link to this element'), 2000)" aria-label="Copy link to this element" class="headerlink" data-tooltip="Copy link to this element" href="#id12"><svg height="1em" viewbox="0 0 24 24" width="1em" xmlns="http://www.w3.org/2000/svg"><path d="M3.9 12c0-1.71 1.39-3.1 3.1-3.1h4V7H7c-2.76 0-5 2.24-5 5s2.24 5 5 5h4v-1.9H7c-1.71 0-3.1-1.39-3.1-3.1zM8 13h8v-2H8v2zm9-6h-4v1.9h4c1.71 0 3.1 1.39 3.1 3.1s-1.39 3.1-3.1 3.1h-4V17h4c2.76 0 5-2.24 5-5s-2.24-5-5-5z"></path></svg></a></div>
-<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">llm_providers</span><span class="p">:</span>
-</span><span id="line-2"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
-</span><span id="line-3"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
-</span><span id="line-4"><span class="w">    </span><span class="nt">default</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
-</span><span id="line-5">
-</span><span id="line-6"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5</span>
-</span><span id="line-7"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
-</span><span id="line-8"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-9"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">complex_reasoning</span>
-</span><span id="line-10"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">deep analysis and complex problem solving</span>
-</span><span id="line-11">
-</span><span id="line-12"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
-</span><span id="line-13"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
-</span><span id="line-14"><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-15"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative_tasks</span>
-</span><span id="line-16"><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative writing and content generation</span>
-</span><span id="line-17">
-</span><span id="line-18"><span class="nt">model_aliases</span><span class="p">:</span>
-</span><span id="line-19"><span class="w">  </span><span class="c1"># Model aliases - friendly names that map to actual provider names</span>
-</span><span id="line-20"><span class="w">  </span><span class="nt">fast-model</span><span class="p">:</span>
-</span><span id="line-21"><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">gpt-5.2</span>
-</span><span id="line-22">
-</span><span id="line-23"><span class="w">  </span><span class="nt">reasoning-model</span><span class="p">:</span>
-</span><span id="line-24"><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">gpt-5</span>
+<div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="nt">version</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">v0.4.0</span>
+</span><span id="line-2">
+</span><span id="line-3"><span class="nt">model_providers</span><span class="p">:</span>
+</span><span id="line-4"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5.2</span>
+</span><span id="line-5"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
+</span><span id="line-6"><span class="w">    </span><span class="nt">default</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
+</span><span id="line-7">
+</span><span id="line-8"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5</span>
+</span><span id="line-9"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$OPENAI_API_KEY</span>
+</span><span id="line-10">
+</span><span id="line-11"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-12"><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$ANTHROPIC_API_KEY</span>
+</span><span id="line-13">
+</span><span id="line-14"><span class="nt">routing_preferences</span><span class="p">:</span>
+</span><span id="line-15"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">complex_reasoning</span>
+</span><span id="line-16"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">deep analysis and complex problem solving</span>
+</span><span id="line-17"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-18"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5</span>
+</span><span id="line-19"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-20"><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative_tasks</span>
+</span><span id="line-21"><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">creative writing and content generation</span>
+</span><span id="line-22"><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-23"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-5</span>
+</span><span id="line-24"><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-5</span>
 </span><span id="line-25">
-</span><span id="line-26"><span class="w">  </span><span class="c1"># Aliases that can also participate in dynamic routing</span>
-</span><span id="line-27"><span class="w">  </span><span class="nt">creative-model</span><span class="p">:</span>
-</span><span id="line-28"><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">claude-sonnet-4-5</span>
+</span><span id="line-26"><span class="nt">model_aliases</span><span class="p">:</span>
+</span><span id="line-27"><span class="w">  </span><span class="c1"># Model aliases - friendly names that map to actual provider names</span>
+</span><span id="line-28"><span class="w">  </span><span class="nt">fast-model</span><span class="p">:</span>
+</span><span id="line-29"><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">gpt-5.2</span>
+</span><span id="line-30">
+</span><span id="line-31"><span class="w">  </span><span class="nt">reasoning-model</span><span class="p">:</span>
+</span><span id="line-32"><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">gpt-5</span>
+</span><span id="line-33">
+</span><span id="line-34"><span class="w">  </span><span class="c1"># Aliases that can also participate in dynamic routing</span>
+</span><span id="line-35"><span class="w">  </span><span class="nt">creative-model</span><span class="p">:</span>
+</span><span id="line-36"><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">claude-sonnet-4-5</span>
 </span></code></pre></div>
 </div>
 </div>
--- a/includes/llms.txt
+++ b/includes/llms.txt
@ -1,6 +1,6 @@
 Plano Docs v0.4.20
 llms.txt (auto-generated)
-Generated (UTC): 2026-04-24T19:31:46.972805+00:00
+Generated (UTC): 2026-04-24T19:32:12.216149+00:00

 Table of contents
 - Agents (concepts/agents)
@ -1381,7 +1381,9 @@ Complex agents and coding

 Configuration Examples:

-llm_providers:
+version: v0.4.0
+
+model_providers:
  # Configure all Anthropic models with wildcard
  - model: anthropic/*
    access_key: $ANTHROPIC_API_KEY
@ -1402,8 +1404,12 @@ llm_providers:

  - model: anthropic/claude-sonnet-4-20250514
    access_key: $ANTHROPIC_PROD_API_KEY
-    routing_preferences:
-      - name: code_generation
+
+routing_preferences:
+  - name: code_generation
+    description: generating new code snippets, functions, or boilerplate based on user prompts or requirements
+    models:
+      - anthropic/claude-sonnet-4-20250514

 DeepSeek

@ -2084,7 +2090,9 @@ Overriding Wildcard Models:

 You can configure specific models with custom settings even when using wildcards. Specific configurations take precedence and are excluded from wildcard expansion:

-llm_providers:
+version: v0.4.0
+
+model_providers:
  # Expand to all Anthropic models
  - model: anthropic/*
    access_key: $ANTHROPIC_API_KEY
@ -2093,14 +2101,17 @@ llm_providers:
  # This model will NOT be included in the wildcard expansion above
  - model: anthropic/claude-sonnet-4-20250514
    access_key: $ANTHROPIC_PROD_API_KEY
-    routing_preferences:
-      - name: code_generation
-        priority: 1

  # Another specific override
  - model: anthropic/claude-3-haiku-20240307
    access_key: $ANTHROPIC_DEV_API_KEY

+routing_preferences:
+  - name: code_generation
+    description: generating new code snippets, functions, or boilerplate based on user prompts or requirements
+    models:
+      - anthropic/claude-sonnet-4-20250514
+
 Custom Provider Wildcards:

 For providers not in Plano’s registry, wildcards enable dynamic model routing:
@ -2139,22 +2150,33 @@ llm_providers:

 Routing Preferences

-Configure routing preferences for dynamic model selection:
+Starting in v0.4.0, configure routing preferences at the top level of the config. Each preference declares an ordered models candidate pool; the first entry is primary and the rest are fallbacks the client tries on 429/5xx errors. Multiple providers can serve the same route — just list them all under models. See /guides/llm_router for the full routing model.

-llm_providers:
+version: v0.4.0
+
+model_providers:
  - model: openai/gpt-5.2
    access_key: $OPENAI_API_KEY
-    routing_preferences:
-      - name: complex_reasoning
-        description: deep analysis, mathematical problem solving, and logical reasoning
-      - name: code_review
-        description: reviewing and analyzing existing code for bugs and improvements

  - model: anthropic/claude-sonnet-4-5
    access_key: $ANTHROPIC_API_KEY
-    routing_preferences:
-      - name: creative_writing
-        description: creative content generation, storytelling, and writing assistance
+
+routing_preferences:
+  - name: complex_reasoning
+    description: deep analysis, mathematical problem solving, and logical reasoning
+    models:
+      - openai/gpt-5.2
+      - anthropic/claude-sonnet-4-5
+  - name: code_review
+    description: reviewing and analyzing existing code for bugs and improvements
+    models:
+      - openai/gpt-5.2
+  - name: creative_writing
+    description: creative content generation, storytelling, and writing assistance
+    models:
+      - anthropic/claude-sonnet-4-5
+
+v0.3.0 configs that declare routing_preferences inline under each model_provider are auto-migrated to this top-level shape by the Plano CLI at compile time, with a deprecation warning. Update to the form above to silence the warning and gain the multi-model fallback behavior.



@ -4179,37 +4201,51 @@ Plano-Orchestrator analyzes each prompt to infer domain and action, then applies

 Configuration

-To configure preference-aligned dynamic routing, define routing preferences that map domains and actions to specific models:
+To configure preference-aligned dynamic routing, declare a top-level routing_preferences list and attach an ordered models candidate pool to each route. Starting in v0.4.0, routing_preferences lives at the root of the config (not inline under model_providers), which lets multiple models serve the same route — the first entry in models is primary, the rest are fallbacks that the client tries on 429/5xx errors.

 Preference-Aligned Dynamic Routing Configuration

+version: v0.4.0
+
 listeners:
-  egress_traffic:
+  - name: egress_traffic
+    type: model
    address: 0.0.0.0
    port: 12000
-    message_format: openai
    timeout: 30s

-llm_providers:
+model_providers:
  - model: openai/gpt-5.2
    access_key: $OPENAI_API_KEY
    default: true

  - model: openai/gpt-5
    access_key: $OPENAI_API_KEY
-    routing_preferences:
-      - name: code understanding
-        description: understand and explain existing code snippets, functions, or libraries
-      - name: complex reasoning
-        description: deep analysis, mathematical problem solving, and logical reasoning

  - model: anthropic/claude-sonnet-4-5
    access_key: $ANTHROPIC_API_KEY
-    routing_preferences:
-      - name: creative writing
-        description: creative content generation, storytelling, and writing assistance
-      - name: code generation
-        description: generating new code snippets, functions, or boilerplate based on user prompts
+
+routing_preferences:
+  - name: code understanding
+    description: understand and explain existing code snippets, functions, or libraries
+    models:
+      - openai/gpt-5
+      - anthropic/claude-sonnet-4-5
+  - name: complex reasoning
+    description: deep analysis, mathematical problem solving, and logical reasoning
+    models:
+      - openai/gpt-5
+  - name: creative writing
+    description: creative content generation, storytelling, and writing assistance
+    models:
+      - anthropic/claude-sonnet-4-5
+  - name: code generation
+    description: generating new code snippets, functions, or boilerplate based on user prompts
+    models:
+      - anthropic/claude-sonnet-4-5
+      - openai/gpt-5
+
+Configs still using the v0.3.0 inline style (routing_preferences nested under each model_provider) are auto-migrated to this top-level shape by the Plano CLI at compile time, with a deprecation warning. Update your config to the form above to silence the warning.

 Client usage

@ -4273,6 +4309,8 @@ This downloads the quantized GGUF model from HuggingFace and starts serving on h

 Configure Plano to use local routing model

+version: v0.4.0
+
 overrides:
  llm_routing_model: plano/hf.co/katanemo/Arch-Router-1.5B.gguf:Q4_K_M

@ -4286,9 +4324,12 @@ model_providers:

  - model: anthropic/claude-sonnet-4-5
    access_key: $ANTHROPIC_API_KEY
-    routing_preferences:
-      - name: creative writing
-        description: creative content generation, storytelling, and writing assistance
+
+routing_preferences:
+  - name: creative writing
+    description: creative content generation, storytelling, and writing assistance
+    models:
+      - anthropic/claude-sonnet-4-5

 Verify the model is running

@ -4331,6 +4372,8 @@ vllm serve ${SNAPSHOT_DIR}Arch-Router-1.5B-Q4_K_M.gguf \

 Configure Plano to use the vLLM endpoint

+version: v0.4.0
+
 overrides:
  llm_routing_model: plano/Plano-Orchestrator

@ -4344,9 +4387,12 @@ model_providers:

  - model: anthropic/claude-sonnet-4-5
    access_key: $ANTHROPIC_API_KEY
-    routing_preferences:
-      - name: creative writing
-        description: creative content generation, storytelling, and writing assistance
+
+routing_preferences:
+  - name: creative writing
+    description: creative content generation, storytelling, and writing assistance
+    models:
+      - anthropic/claude-sonnet-4-5

 Verify the server is running

@ -4460,22 +4506,30 @@ You can combine static model selection with dynamic routing preferences for maxi

 Hybrid Routing Configuration

-llm_providers:
+version: v0.4.0
+
+model_providers:
  - model: openai/gpt-5.2
    access_key: $OPENAI_API_KEY
    default: true

  - model: openai/gpt-5
    access_key: $OPENAI_API_KEY
-    routing_preferences:
-      - name: complex_reasoning
-        description: deep analysis and complex problem solving

  - model: anthropic/claude-sonnet-4-5
    access_key: $ANTHROPIC_API_KEY
-    routing_preferences:
-      - name: creative_tasks
-        description: creative writing and content generation
+
+routing_preferences:
+  - name: complex_reasoning
+    description: deep analysis and complex problem solving
+    models:
+      - openai/gpt-5
+      - anthropic/claude-sonnet-4-5
+  - name: creative_tasks
+    description: creative writing and content generation
+    models:
+      - anthropic/claude-sonnet-4-5
+      - openai/gpt-5

 model_aliases:
  # Model aliases - friendly names that map to actual provider names
@ -6895,7 +6949,7 @@ where prompts get routed to, apply guardrails, and enable critical agent observa
 Plano Configuration - Full Reference

 # Plano Gateway configuration version
-version: v0.3.0
+version: v0.4.0

 # External HTTP agents - API type is controlled by request path (/v1/responses, /v1/messages, /v1/chat/completions)
 agents:
@ -6928,17 +6982,8 @@ model_providers:
  - model: mistral/ministral-3b-latest
    access_key: $MISTRAL_API_KEY

-  # routing_preferences: tags a model with named capabilities so Plano's LLM router
-  # can select the best model for each request based on intent. Requires the
-  # Plano-Orchestrator model (or equivalent) to be configured in overrides.llm_routing_model.
-  # Each preference has a name (short label) and a description (used for intent matching).
  - model: groq/llama-3.3-70b-versatile
    access_key: $GROQ_API_KEY
-    routing_preferences:
-      - name: code generation
-        description: generating new code snippets, functions, or boilerplate based on user prompts or requirements
-      - name: code review
-        description: reviewing, analyzing, and suggesting improvements to existing code

  # passthrough_auth: forwards the client's Authorization header upstream instead of
  # using the configured access_key. Useful for LiteLLM or similar proxy setups.
@ -6960,6 +7005,29 @@ model_aliases:
  smart-llm:
    target: gpt-4o

+# routing_preferences: top-level list that tags named task categories with an
+# ordered pool of candidate models. Plano's LLM router matches incoming requests
+# against these descriptions and returns an ordered list of models; the client
+# uses models[0] as primary and retries with models[1], models[2]... on 429/5xx.
+# Requires overrides.llm_routing_model to point at Plano-Orchestrator (or equivalent).
+# Each model in `models` must be declared in model_providers above.
+# selection_policy is optional: {prefer: cheapest|fastest|none} lets the router
+# reorder candidates using live cost/latency data from model_metrics_sources.
+routing_preferences:
+  - name: code generation
+    description: generating new code snippets, functions, or boilerplate based on user prompts or requirements
+    models:
+      - anthropic/claude-sonnet-4-0
+      - openai/gpt-4o
+      - groq/llama-3.3-70b-versatile
+  - name: code review
+    description: reviewing, analyzing, and suggesting improvements to existing code
+    models:
+      - anthropic/claude-sonnet-4-0
+      - groq/llama-3.3-70b-versatile
+    selection_policy:
+      prefer: cheapest
+
 # HTTP listeners - entry points for agent routing, prompt targets, and direct LLM access
 listeners:
  # Agent listener for routing requests to multiple agents
--- a/resources/configuration_reference.html
+++ b/resources/configuration_reference.html
@ -168,7 +168,7 @@ where prompts get routed to, apply guardrails, and enable critical agent observa
 <div class="literal-block-wrapper docutils container" id="id2">
 <div class="code-block-caption"><span class="caption-text"><a class="reference download internal" download="" href="../_downloads/c86f9e8fb1f2994b1ba4a0b98481410e/plano_config_full_reference.yaml"><code class="xref download docutils literal notranslate"><span class="pre">Plano</span> <span class="pre">Configuration</span> <span class="pre">-</span> <span class="pre">Full</span> <span class="pre">Reference</span></code></a></span><a @click.prevent="window.navigator.clipboard.writeText($el.href); $el.setAttribute('data-tooltip', 'Copied!'); setTimeout(() =&gt; $el.setAttribute('data-tooltip', 'Copy link to this element'), 2000)" aria-label="Copy link to this element" class="headerlink" data-tooltip="Copy link to this element" href="#id2"><svg height="1em" viewbox="0 0 24 24" width="1em" xmlns="http://www.w3.org/2000/svg"><path d="M3.9 12c0-1.71 1.39-3.1 3.1-3.1h4V7H7c-2.76 0-5 2.24-5 5s2.24 5 5 5h4v-1.9H7c-1.71 0-3.1-1.39-3.1-3.1zM8 13h8v-2H8v2zm9-6h-4v1.9h4c1.71 0 3.1 1.39 3.1 3.1s-1.39 3.1-3.1 3.1h-4V17h4c2.76 0 5-2.24 5-5s-2.24-5-5-5z"></path></svg></a></div>
 <div class="highlight-yaml notranslate"><div class="highlight"><pre><span></span><code><span id="line-1"><span class="linenos">  1</span><span class="c1"># Plano Gateway configuration version</span>
-</span><span id="line-2"><span class="linenos">  2</span><span class="nt">version</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">v0.3.0</span>
+</span><span id="line-2"><span class="linenos">  2</span><span class="nt">version</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">v0.4.0</span>
 </span><span id="line-3"><span class="linenos">  3</span>
 </span><span id="line-4"><span class="linenos">  4</span><span class="c1"># External HTTP agents - API type is controlled by request path (/v1/responses, /v1/messages, /v1/chat/completions)</span>
 </span><span id="line-5"><span class="linenos">  5</span><span class="nt">agents</span><span class="p">:</span>
@ -201,195 +201,209 @@ where prompts get routed to, apply guardrails, and enable critical agent observa
 </span><span id="line-32"><span class="linenos"> 32</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">mistral/ministral-3b-latest</span>
 </span><span id="line-33"><span class="linenos"> 33</span><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$MISTRAL_API_KEY</span>
 </span><span id="line-34"><span class="linenos"> 34</span>
-</span><span id="line-35"><span class="linenos"> 35</span><span class="w">  </span><span class="c1"># routing_preferences: tags a model with named capabilities so Plano's LLM router</span>
-</span><span id="line-36"><span class="linenos"> 36</span><span class="w">  </span><span class="c1"># can select the best model for each request based on intent. Requires the</span>
-</span><span id="line-37"><span class="linenos"> 37</span><span class="w">  </span><span class="c1"># Plano-Orchestrator model (or equivalent) to be configured in overrides.llm_routing_model.</span>
-</span><span id="line-38"><span class="linenos"> 38</span><span class="w">  </span><span class="c1"># Each preference has a name (short label) and a description (used for intent matching).</span>
-</span><span id="line-39"><span class="linenos"> 39</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">groq/llama-3.3-70b-versatile</span>
-</span><span id="line-40"><span class="linenos"> 40</span><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$GROQ_API_KEY</span>
-</span><span id="line-41"><span class="linenos"> 41</span><span class="w">    </span><span class="nt">routing_preferences</span><span class="p">:</span>
-</span><span id="line-42"><span class="linenos"> 42</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code generation</span>
-</span><span id="line-43"><span class="linenos"> 43</span><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">generating new code snippets, functions, or boilerplate based on user prompts or requirements</span>
-</span><span id="line-44"><span class="linenos"> 44</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code review</span>
-</span><span id="line-45"><span class="linenos"> 45</span><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">reviewing, analyzing, and suggesting improvements to existing code</span>
-</span><span id="line-46"><span class="linenos"> 46</span>
-</span><span id="line-47"><span class="linenos"> 47</span><span class="w">  </span><span class="c1"># passthrough_auth: forwards the client's Authorization header upstream instead of</span>
-</span><span id="line-48"><span class="linenos"> 48</span><span class="w">  </span><span class="c1"># using the configured access_key. Useful for LiteLLM or similar proxy setups.</span>
-</span><span id="line-49"><span class="linenos"> 49</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-4o-litellm</span>
-</span><span id="line-50"><span class="linenos"> 50</span><span class="w">    </span><span class="nt">base_url</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">https://litellm.example.com</span>
-</span><span id="line-51"><span class="linenos"> 51</span><span class="w">    </span><span class="nt">passthrough_auth</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
-</span><span id="line-52"><span class="linenos"> 52</span>
-</span><span id="line-53"><span class="linenos"> 53</span><span class="w">  </span><span class="c1"># Custom/self-hosted endpoint with explicit http_host override</span>
-</span><span id="line-54"><span class="linenos"> 54</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/llama-3.3-70b</span>
-</span><span id="line-55"><span class="linenos"> 55</span><span class="w">    </span><span class="nt">base_url</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">https://api.custom-provider.com</span>
-</span><span id="line-56"><span class="linenos"> 56</span><span class="w">    </span><span class="nt">http_host</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">api.custom-provider.com</span>
-</span><span id="line-57"><span class="linenos"> 57</span><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$CUSTOM_API_KEY</span>
-</span><span id="line-58"><span class="linenos"> 58</span>
-</span><span id="line-59"><span class="linenos"> 59</span><span class="c1"># Model aliases - use friendly names instead of full provider model names</span>
-</span><span id="line-60"><span class="linenos"> 60</span><span class="nt">model_aliases</span><span class="p">:</span>
-</span><span id="line-61"><span class="linenos"> 61</span><span class="w">  </span><span class="nt">fast-llm</span><span class="p">:</span>
-</span><span id="line-62"><span class="linenos"> 62</span><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">gpt-4o-mini</span>
-</span><span id="line-63"><span class="linenos"> 63</span>
-</span><span id="line-64"><span class="linenos"> 64</span><span class="w">  </span><span class="nt">smart-llm</span><span class="p">:</span>
-</span><span id="line-65"><span class="linenos"> 65</span><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">gpt-4o</span>
-</span><span id="line-66"><span class="linenos"> 66</span>
-</span><span id="line-67"><span class="linenos"> 67</span><span class="c1"># HTTP listeners - entry points for agent routing, prompt targets, and direct LLM access</span>
-</span><span id="line-68"><span class="linenos"> 68</span><span class="nt">listeners</span><span class="p">:</span>
-</span><span id="line-69"><span class="linenos"> 69</span><span class="w">  </span><span class="c1"># Agent listener for routing requests to multiple agents</span>
-</span><span id="line-70"><span class="linenos"> 70</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">agent</span>
-</span><span id="line-71"><span class="linenos"> 71</span><span class="w">    </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">travel_booking_service</span>
-</span><span id="line-72"><span class="linenos"> 72</span><span class="w">    </span><span class="nt">port</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">8001</span>
-</span><span id="line-73"><span class="linenos"> 73</span><span class="w">    </span><span class="nt">router</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano_orchestrator_v1</span>
-</span><span id="line-74"><span class="linenos"> 74</span><span class="w">    </span><span class="nt">address</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.0.0.0</span>
-</span><span id="line-75"><span class="linenos"> 75</span><span class="w">    </span><span class="nt">agents</span><span class="p">:</span>
-</span><span id="line-76"><span class="linenos"> 76</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">id</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">rag_agent</span>
-</span><span id="line-77"><span class="linenos"> 77</span><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">virtual assistant for retrieval augmented generation tasks</span>
-</span><span id="line-78"><span class="linenos"> 78</span><span class="w">        </span><span class="nt">input_filters</span><span class="p">:</span>
-</span><span id="line-79"><span class="linenos"> 79</span><span class="w">          </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">input_guards</span>
+</span><span id="line-35"><span class="linenos"> 35</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">groq/llama-3.3-70b-versatile</span>
+</span><span id="line-36"><span class="linenos"> 36</span><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$GROQ_API_KEY</span>
+</span><span id="line-37"><span class="linenos"> 37</span>
+</span><span id="line-38"><span class="linenos"> 38</span><span class="w">  </span><span class="c1"># passthrough_auth: forwards the client's Authorization header upstream instead of</span>
+</span><span id="line-39"><span class="linenos"> 39</span><span class="w">  </span><span class="c1"># using the configured access_key. Useful for LiteLLM or similar proxy setups.</span>
+</span><span id="line-40"><span class="linenos"> 40</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-4o-litellm</span>
+</span><span id="line-41"><span class="linenos"> 41</span><span class="w">    </span><span class="nt">base_url</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">https://litellm.example.com</span>
+</span><span id="line-42"><span class="linenos"> 42</span><span class="w">    </span><span class="nt">passthrough_auth</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
+</span><span id="line-43"><span class="linenos"> 43</span>
+</span><span id="line-44"><span class="linenos"> 44</span><span class="w">  </span><span class="c1"># Custom/self-hosted endpoint with explicit http_host override</span>
+</span><span id="line-45"><span class="linenos"> 45</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/llama-3.3-70b</span>
+</span><span id="line-46"><span class="linenos"> 46</span><span class="w">    </span><span class="nt">base_url</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">https://api.custom-provider.com</span>
+</span><span id="line-47"><span class="linenos"> 47</span><span class="w">    </span><span class="nt">http_host</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">api.custom-provider.com</span>
+</span><span id="line-48"><span class="linenos"> 48</span><span class="w">    </span><span class="nt">access_key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">$CUSTOM_API_KEY</span>
+</span><span id="line-49"><span class="linenos"> 49</span>
+</span><span id="line-50"><span class="linenos"> 50</span><span class="c1"># Model aliases - use friendly names instead of full provider model names</span>
+</span><span id="line-51"><span class="linenos"> 51</span><span class="nt">model_aliases</span><span class="p">:</span>
+</span><span id="line-52"><span class="linenos"> 52</span><span class="w">  </span><span class="nt">fast-llm</span><span class="p">:</span>
+</span><span id="line-53"><span class="linenos"> 53</span><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">gpt-4o-mini</span>
+</span><span id="line-54"><span class="linenos"> 54</span>
+</span><span id="line-55"><span class="linenos"> 55</span><span class="w">  </span><span class="nt">smart-llm</span><span class="p">:</span>
+</span><span id="line-56"><span class="linenos"> 56</span><span class="w">    </span><span class="nt">target</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">gpt-4o</span>
+</span><span id="line-57"><span class="linenos"> 57</span>
+</span><span id="line-58"><span class="linenos"> 58</span><span class="c1"># routing_preferences: top-level list that tags named task categories with an</span>
+</span><span id="line-59"><span class="linenos"> 59</span><span class="c1"># ordered pool of candidate models. Plano's LLM router matches incoming requests</span>
+</span><span id="line-60"><span class="linenos"> 60</span><span class="c1"># against these descriptions and returns an ordered list of models; the client</span>
+</span><span id="line-61"><span class="linenos"> 61</span><span class="c1"># uses models[0] as primary and retries with models[1], models[2]... on 429/5xx.</span>
+</span><span id="line-62"><span class="linenos"> 62</span><span class="c1"># Requires overrides.llm_routing_model to point at Plano-Orchestrator (or equivalent).</span>
+</span><span id="line-63"><span class="linenos"> 63</span><span class="c1"># Each model in `models` must be declared in model_providers above.</span>
+</span><span id="line-64"><span class="linenos"> 64</span><span class="c1"># selection_policy is optional: {prefer: cheapest|fastest|none} lets the router</span>
+</span><span id="line-65"><span class="linenos"> 65</span><span class="c1"># reorder candidates using live cost/latency data from model_metrics_sources.</span>
+</span><span id="line-66"><span class="linenos"> 66</span><span class="nt">routing_preferences</span><span class="p">:</span>
+</span><span id="line-67"><span class="linenos"> 67</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code generation</span>
+</span><span id="line-68"><span class="linenos"> 68</span><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">generating new code snippets, functions, or boilerplate based on user prompts or requirements</span>
+</span><span id="line-69"><span class="linenos"> 69</span><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-70"><span class="linenos"> 70</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-0</span>
+</span><span id="line-71"><span class="linenos"> 71</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-4o</span>
+</span><span id="line-72"><span class="linenos"> 72</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">groq/llama-3.3-70b-versatile</span>
+</span><span id="line-73"><span class="linenos"> 73</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">code review</span>
+</span><span id="line-74"><span class="linenos"> 74</span><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">reviewing, analyzing, and suggesting improvements to existing code</span>
+</span><span id="line-75"><span class="linenos"> 75</span><span class="w">    </span><span class="nt">models</span><span class="p">:</span>
+</span><span id="line-76"><span class="linenos"> 76</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">anthropic/claude-sonnet-4-0</span>
+</span><span id="line-77"><span class="linenos"> 77</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">groq/llama-3.3-70b-versatile</span>
+</span><span id="line-78"><span class="linenos"> 78</span><span class="w">    </span><span class="nt">selection_policy</span><span class="p">:</span>
+</span><span id="line-79"><span class="linenos"> 79</span><span class="w">      </span><span class="nt">prefer</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">cheapest</span>
 </span><span id="line-80"><span class="linenos"> 80</span>
-</span><span id="line-81"><span class="linenos"> 81</span><span class="w">  </span><span class="c1"># Model listener for direct LLM access</span>
-</span><span id="line-82"><span class="linenos"> 82</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">model</span>
-</span><span id="line-83"><span class="linenos"> 83</span><span class="w">    </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">model_1</span>
-</span><span id="line-84"><span class="linenos"> 84</span><span class="w">    </span><span class="nt">address</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.0.0.0</span>
-</span><span id="line-85"><span class="linenos"> 85</span><span class="w">    </span><span class="nt">port</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">12000</span>
-</span><span id="line-86"><span class="linenos"> 86</span><span class="w">    </span><span class="nt">timeout</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">30s</span><span class="w">          </span><span class="c1"># Request timeout (e.g. "30s", "60s")</span>
-</span><span id="line-87"><span class="linenos"> 87</span><span class="w">    </span><span class="nt">max_retries</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">3</span><span class="w">        </span><span class="c1"># Number of retries on upstream failure</span>
-</span><span id="line-88"><span class="linenos"> 88</span><span class="w">    </span><span class="nt">input_filters</span><span class="p">:</span><span class="w">        </span><span class="c1"># Filters applied before forwarding to LLM</span>
-</span><span id="line-89"><span class="linenos"> 89</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">input_guards</span>
-</span><span id="line-90"><span class="linenos"> 90</span><span class="w">    </span><span class="nt">output_filters</span><span class="p">:</span><span class="w">       </span><span class="c1"># Filters applied to LLM responses before returning to client</span>
-</span><span id="line-91"><span class="linenos"> 91</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">input_guards</span>
-</span><span id="line-92"><span class="linenos"> 92</span>
-</span><span id="line-93"><span class="linenos"> 93</span><span class="w">  </span><span class="c1"># Prompt listener for function calling (for prompt_targets)</span>
-</span><span id="line-94"><span class="linenos"> 94</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">prompt</span>
-</span><span id="line-95"><span class="linenos"> 95</span><span class="w">    </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">prompt_function_listener</span>
-</span><span id="line-96"><span class="linenos"> 96</span><span class="w">    </span><span class="nt">address</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.0.0.0</span>
-</span><span id="line-97"><span class="linenos"> 97</span><span class="w">    </span><span class="nt">port</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">10000</span>
-</span><span id="line-98"><span class="linenos"> 98</span>
-</span><span id="line-99"><span class="linenos"> 99</span><span class="c1"># Reusable service endpoints</span>
-</span><span id="line-100"><span class="linenos">100</span><span class="nt">endpoints</span><span class="p">:</span>
-</span><span id="line-101"><span class="linenos">101</span><span class="w">  </span><span class="nt">app_server</span><span class="p">:</span>
-</span><span id="line-102"><span class="linenos">102</span><span class="w">    </span><span class="nt">endpoint</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">127.0.0.1:80</span>
-</span><span id="line-103"><span class="linenos">103</span><span class="w">    </span><span class="nt">connect_timeout</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.005s</span>
-</span><span id="line-104"><span class="linenos">104</span><span class="w">    </span><span class="nt">protocol</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">http</span><span class="w">        </span><span class="c1"># http or https</span>
-</span><span id="line-105"><span class="linenos">105</span>
-</span><span id="line-106"><span class="linenos">106</span><span class="w">  </span><span class="nt">mistral_local</span><span class="p">:</span>
-</span><span id="line-107"><span class="linenos">107</span><span class="w">    </span><span class="nt">endpoint</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">127.0.0.1:8001</span>
-</span><span id="line-108"><span class="linenos">108</span>
-</span><span id="line-109"><span class="linenos">109</span><span class="w">  </span><span class="nt">secure_service</span><span class="p">:</span>
-</span><span id="line-110"><span class="linenos">110</span><span class="w">    </span><span class="nt">endpoint</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">api.example.com:443</span>
-</span><span id="line-111"><span class="linenos">111</span><span class="w">    </span><span class="nt">protocol</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">https</span>
-</span><span id="line-112"><span class="linenos">112</span><span class="w">    </span><span class="nt">http_host</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">api.example.com</span><span class="w">  </span><span class="c1"># Override the Host header sent upstream</span>
-</span><span id="line-113"><span class="linenos">113</span>
-</span><span id="line-114"><span class="linenos">114</span><span class="c1"># Optional top-level system prompt applied to all prompt_targets</span>
-</span><span id="line-115"><span class="linenos">115</span><span class="nt">system_prompt</span><span class="p">:</span><span class="w"> </span><span class="p p-Indicator">|</span>
-</span><span id="line-116"><span class="linenos">116</span><span class="w">  </span><span class="no">You are a helpful assistant. Always respond concisely and accurately.</span>
-</span><span id="line-117"><span class="linenos">117</span>
-</span><span id="line-118"><span class="linenos">118</span><span class="c1"># Prompt targets for function calling and API orchestration</span>
-</span><span id="line-119"><span class="linenos">119</span><span class="nt">prompt_targets</span><span class="p">:</span>
-</span><span id="line-120"><span class="linenos">120</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">get_current_weather</span>
-</span><span id="line-121"><span class="linenos">121</span><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">Get current weather at a location.</span>
-</span><span id="line-122"><span class="linenos">122</span><span class="w">    </span><span class="nt">parameters</span><span class="p">:</span>
-</span><span id="line-123"><span class="linenos">123</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">location</span>
-</span><span id="line-124"><span class="linenos">124</span><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">The location to get the weather for</span>
-</span><span id="line-125"><span class="linenos">125</span><span class="w">        </span><span class="nt">required</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
-</span><span id="line-126"><span class="linenos">126</span><span class="w">        </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">string</span>
-</span><span id="line-127"><span class="linenos">127</span><span class="w">        </span><span class="nt">format</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">City, State</span>
-</span><span id="line-128"><span class="linenos">128</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">days</span>
-</span><span id="line-129"><span class="linenos">129</span><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">the number of days for the request</span>
-</span><span id="line-130"><span class="linenos">130</span><span class="w">        </span><span class="nt">required</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
-</span><span id="line-131"><span class="linenos">131</span><span class="w">        </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">int</span>
-</span><span id="line-132"><span class="linenos">132</span><span class="w">    </span><span class="nt">endpoint</span><span class="p">:</span>
-</span><span id="line-133"><span class="linenos">133</span><span class="w">      </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">app_server</span>
-</span><span id="line-134"><span class="linenos">134</span><span class="w">      </span><span class="nt">path</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">/weather</span>
-</span><span id="line-135"><span class="linenos">135</span><span class="w">      </span><span class="nt">http_method</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">POST</span>
-</span><span id="line-136"><span class="linenos">136</span><span class="w">    </span><span class="c1"># Per-target system prompt (overrides top-level system_prompt for this target)</span>
-</span><span id="line-137"><span class="linenos">137</span><span class="w">    </span><span class="nt">system_prompt</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">You are a weather expert. Provide accurate and concise weather information.</span>
-</span><span id="line-138"><span class="linenos">138</span><span class="w">    </span><span class="c1"># auto_llm_dispatch_on_response: when true, the LLM is called again with the</span>
-</span><span id="line-139"><span class="linenos">139</span><span class="w">    </span><span class="c1"># function response to produce a final natural-language answer for the user</span>
-</span><span id="line-140"><span class="linenos">140</span><span class="w">    </span><span class="nt">auto_llm_dispatch_on_response</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
-</span><span id="line-141"><span class="linenos">141</span>
-</span><span id="line-142"><span class="linenos">142</span><span class="c1"># Rate limits - control token usage per model and request selector</span>
-</span><span id="line-143"><span class="linenos">143</span><span class="nt">ratelimits</span><span class="p">:</span>
-</span><span id="line-144"><span class="linenos">144</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-4o</span>
-</span><span id="line-145"><span class="linenos">145</span><span class="w">    </span><span class="nt">selector</span><span class="p">:</span>
-</span><span id="line-146"><span class="linenos">146</span><span class="w">      </span><span class="nt">key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">x-user-id</span><span class="w">       </span><span class="c1"># HTTP header key used to identify the rate-limit subject</span>
-</span><span id="line-147"><span class="linenos">147</span><span class="w">      </span><span class="nt">value</span><span class="p">:</span><span class="w"> </span><span class="s">"*"</span><span class="w">           </span><span class="c1"># Wildcard matches any value; use a specific string to target one</span>
-</span><span id="line-148"><span class="linenos">148</span><span class="w">    </span><span class="nt">limit</span><span class="p">:</span>
-</span><span id="line-149"><span class="linenos">149</span><span class="w">      </span><span class="nt">tokens</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">100000</span><span class="w">       </span><span class="c1"># Maximum tokens allowed in the given time unit</span>
-</span><span id="line-150"><span class="linenos">150</span><span class="w">      </span><span class="nt">unit</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">hour</span><span class="w">           </span><span class="c1"># Time unit: "minute", "hour", or "day"</span>
-</span><span id="line-151"><span class="linenos">151</span>
-</span><span id="line-152"><span class="linenos">152</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-4o-mini</span>
-</span><span id="line-153"><span class="linenos">153</span><span class="w">    </span><span class="nt">selector</span><span class="p">:</span>
-</span><span id="line-154"><span class="linenos">154</span><span class="w">      </span><span class="nt">key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">x-org-id</span>
-</span><span id="line-155"><span class="linenos">155</span><span class="w">      </span><span class="nt">value</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">acme-corp</span>
-</span><span id="line-156"><span class="linenos">156</span><span class="w">    </span><span class="nt">limit</span><span class="p">:</span>
-</span><span id="line-157"><span class="linenos">157</span><span class="w">      </span><span class="nt">tokens</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">500000</span>
-</span><span id="line-158"><span class="linenos">158</span><span class="w">      </span><span class="nt">unit</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">day</span>
-</span><span id="line-159"><span class="linenos">159</span>
-</span><span id="line-160"><span class="linenos">160</span><span class="c1"># Global behavior overrides</span>
-</span><span id="line-161"><span class="linenos">161</span><span class="nt">overrides</span><span class="p">:</span>
-</span><span id="line-162"><span class="linenos">162</span><span class="w">  </span><span class="c1"># Threshold for routing a request to a prompt_target (0.0–1.0). Lower = more permissive.</span>
-</span><span id="line-163"><span class="linenos">163</span><span class="w">  </span><span class="nt">prompt_target_intent_matching_threshold</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.7</span>
-</span><span id="line-164"><span class="linenos">164</span><span class="w">  </span><span class="c1"># Trim conversation history to fit within the model's context window</span>
-</span><span id="line-165"><span class="linenos">165</span><span class="w">  </span><span class="nt">optimize_context_window</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
-</span><span id="line-166"><span class="linenos">166</span><span class="w">  </span><span class="c1"># Use Plano's agent orchestrator for multi-agent request routing</span>
-</span><span id="line-167"><span class="linenos">167</span><span class="w">  </span><span class="nt">use_agent_orchestrator</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">false</span>
-</span><span id="line-168"><span class="linenos">168</span><span class="w">  </span><span class="c1"># Connect timeout for upstream provider clusters (e.g., "5s", "10s"). Default: "5s"</span>
-</span><span id="line-169"><span class="linenos">169</span><span class="w">  </span><span class="nt">upstream_connect_timeout</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">10s</span>
-</span><span id="line-170"><span class="linenos">170</span><span class="w">  </span><span class="c1"># Path to the trusted CA bundle for upstream TLS verification</span>
-</span><span id="line-171"><span class="linenos">171</span><span class="w">  </span><span class="nt">upstream_tls_ca_path</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">/etc/ssl/certs/ca-certificates.crt</span>
-</span><span id="line-172"><span class="linenos">172</span><span class="w">  </span><span class="c1"># Model used for intent-based LLM routing (must be listed in model_providers)</span>
-</span><span id="line-173"><span class="linenos">173</span><span class="w">  </span><span class="nt">llm_routing_model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">Plano-Orchestrator</span>
-</span><span id="line-174"><span class="linenos">174</span><span class="w">  </span><span class="c1"># Model used for agent orchestration (must be listed in model_providers)</span>
-</span><span id="line-175"><span class="linenos">175</span><span class="w">  </span><span class="nt">agent_orchestration_model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">Plano-Orchestrator</span>
-</span><span id="line-176"><span class="linenos">176</span><span class="w">  </span><span class="c1"># Disable agentic signal analysis (frustration, repetition, escalation, etc.)</span>
-</span><span id="line-177"><span class="linenos">177</span><span class="w">  </span><span class="c1"># on LLM responses to save CPU. Default: false.</span>
-</span><span id="line-178"><span class="linenos">178</span><span class="w">  </span><span class="nt">disable_signals</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">false</span>
-</span><span id="line-179"><span class="linenos">179</span>
-</span><span id="line-180"><span class="linenos">180</span><span class="c1"># Model affinity — pin routing decisions for agentic loops</span>
-</span><span id="line-181"><span class="linenos">181</span><span class="nt">routing</span><span class="p">:</span>
-</span><span id="line-182"><span class="linenos">182</span><span class="w">  </span><span class="nt">session_ttl_seconds</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">600</span><span class="w">    </span><span class="c1"># How long a pinned session lasts (default: 600s / 10 min)</span>
-</span><span id="line-183"><span class="linenos">183</span><span class="w">  </span><span class="nt">session_max_entries</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">10000</span><span class="w">  </span><span class="c1"># Max cached sessions before eviction (upper limit: 10000)</span>
-</span><span id="line-184"><span class="linenos">184</span><span class="w">  </span><span class="c1"># session_cache controls the backend used to store affinity state.</span>
-</span><span id="line-185"><span class="linenos">185</span><span class="w">  </span><span class="c1"># "memory" (default) is in-process and works for single-instance deployments.</span>
-</span><span id="line-186"><span class="linenos">186</span><span class="w">  </span><span class="c1"># "redis" shares state across replicas — required for multi-replica / Kubernetes setups.</span>
-</span><span id="line-187"><span class="linenos">187</span><span class="w">  </span><span class="nt">session_cache</span><span class="p">:</span>
-</span><span id="line-188"><span class="linenos">188</span><span class="w">    </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">memory</span><span class="w">              </span><span class="c1"># "memory" (default) or "redis"</span>
-</span><span id="line-189"><span class="linenos">189</span><span class="w">    </span><span class="c1"># url is required when type is "redis". Supports redis:// and rediss:// (TLS).</span>
-</span><span id="line-190"><span class="linenos">190</span><span class="w">    </span><span class="c1"># url: redis://localhost:6379</span>
-</span><span id="line-191"><span class="linenos">191</span><span class="w">    </span><span class="c1"># tenant_header: x-org-id  # optional; when set, keys are scoped as plano:affinity:{tenant_id}:{session_id}</span>
-</span><span id="line-192"><span class="linenos">192</span>
-</span><span id="line-193"><span class="linenos">193</span><span class="c1"># State storage for multi-turn conversation history</span>
-</span><span id="line-194"><span class="linenos">194</span><span class="nt">state_storage</span><span class="p">:</span>
-</span><span id="line-195"><span class="linenos">195</span><span class="w">  </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">memory</span><span class="w">            </span><span class="c1"># "memory" (in-process) or "postgres" (persistent)</span>
-</span><span id="line-196"><span class="linenos">196</span><span class="w">  </span><span class="c1"># connection_string is required when type is postgres.</span>
-</span><span id="line-197"><span class="linenos">197</span><span class="w">  </span><span class="c1"># Supports environment variable substitution: $VAR or ${VAR}</span>
-</span><span id="line-198"><span class="linenos">198</span><span class="w">  </span><span class="c1"># connection_string: postgresql://user:$DB_PASS@localhost:5432/plano</span>
-</span><span id="line-199"><span class="linenos">199</span>
-</span><span id="line-200"><span class="linenos">200</span><span class="c1"># Input guardrails applied globally to all incoming requests</span>
-</span><span id="line-201"><span class="linenos">201</span><span class="nt">prompt_guards</span><span class="p">:</span>
-</span><span id="line-202"><span class="linenos">202</span><span class="w">  </span><span class="nt">input_guards</span><span class="p">:</span>
-</span><span id="line-203"><span class="linenos">203</span><span class="w">    </span><span class="nt">jailbreak</span><span class="p">:</span>
-</span><span id="line-204"><span class="linenos">204</span><span class="w">      </span><span class="nt">on_exception</span><span class="p">:</span>
-</span><span id="line-205"><span class="linenos">205</span><span class="w">        </span><span class="nt">message</span><span class="p">:</span><span class="w"> </span><span class="s">"I'm</span><span class="nv"> </span><span class="s">sorry,</span><span class="nv"> </span><span class="s">I</span><span class="nv"> </span><span class="s">can't</span><span class="nv"> </span><span class="s">help</span><span class="nv"> </span><span class="s">with</span><span class="nv"> </span><span class="s">that</span><span class="nv"> </span><span class="s">request."</span>
+</span><span id="line-81"><span class="linenos"> 81</span><span class="c1"># HTTP listeners - entry points for agent routing, prompt targets, and direct LLM access</span>
+</span><span id="line-82"><span class="linenos"> 82</span><span class="nt">listeners</span><span class="p">:</span>
+</span><span id="line-83"><span class="linenos"> 83</span><span class="w">  </span><span class="c1"># Agent listener for routing requests to multiple agents</span>
+</span><span id="line-84"><span class="linenos"> 84</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">agent</span>
+</span><span id="line-85"><span class="linenos"> 85</span><span class="w">    </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">travel_booking_service</span>
+</span><span id="line-86"><span class="linenos"> 86</span><span class="w">    </span><span class="nt">port</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">8001</span>
+</span><span id="line-87"><span class="linenos"> 87</span><span class="w">    </span><span class="nt">router</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">plano_orchestrator_v1</span>
+</span><span id="line-88"><span class="linenos"> 88</span><span class="w">    </span><span class="nt">address</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.0.0.0</span>
+</span><span id="line-89"><span class="linenos"> 89</span><span class="w">    </span><span class="nt">agents</span><span class="p">:</span>
+</span><span id="line-90"><span class="linenos"> 90</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">id</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">rag_agent</span>
+</span><span id="line-91"><span class="linenos"> 91</span><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">virtual assistant for retrieval augmented generation tasks</span>
+</span><span id="line-92"><span class="linenos"> 92</span><span class="w">        </span><span class="nt">input_filters</span><span class="p">:</span>
+</span><span id="line-93"><span class="linenos"> 93</span><span class="w">          </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">input_guards</span>
+</span><span id="line-94"><span class="linenos"> 94</span>
+</span><span id="line-95"><span class="linenos"> 95</span><span class="w">  </span><span class="c1"># Model listener for direct LLM access</span>
+</span><span id="line-96"><span class="linenos"> 96</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">model</span>
+</span><span id="line-97"><span class="linenos"> 97</span><span class="w">    </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">model_1</span>
+</span><span id="line-98"><span class="linenos"> 98</span><span class="w">    </span><span class="nt">address</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.0.0.0</span>
+</span><span id="line-99"><span class="linenos"> 99</span><span class="w">    </span><span class="nt">port</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">12000</span>
+</span><span id="line-100"><span class="linenos">100</span><span class="w">    </span><span class="nt">timeout</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">30s</span><span class="w">          </span><span class="c1"># Request timeout (e.g. "30s", "60s")</span>
+</span><span id="line-101"><span class="linenos">101</span><span class="w">    </span><span class="nt">max_retries</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">3</span><span class="w">        </span><span class="c1"># Number of retries on upstream failure</span>
+</span><span id="line-102"><span class="linenos">102</span><span class="w">    </span><span class="nt">input_filters</span><span class="p">:</span><span class="w">        </span><span class="c1"># Filters applied before forwarding to LLM</span>
+</span><span id="line-103"><span class="linenos">103</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">input_guards</span>
+</span><span id="line-104"><span class="linenos">104</span><span class="w">    </span><span class="nt">output_filters</span><span class="p">:</span><span class="w">       </span><span class="c1"># Filters applied to LLM responses before returning to client</span>
+</span><span id="line-105"><span class="linenos">105</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">input_guards</span>
+</span><span id="line-106"><span class="linenos">106</span>
+</span><span id="line-107"><span class="linenos">107</span><span class="w">  </span><span class="c1"># Prompt listener for function calling (for prompt_targets)</span>
+</span><span id="line-108"><span class="linenos">108</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">prompt</span>
+</span><span id="line-109"><span class="linenos">109</span><span class="w">    </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">prompt_function_listener</span>
+</span><span id="line-110"><span class="linenos">110</span><span class="w">    </span><span class="nt">address</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.0.0.0</span>
+</span><span id="line-111"><span class="linenos">111</span><span class="w">    </span><span class="nt">port</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">10000</span>
+</span><span id="line-112"><span class="linenos">112</span>
+</span><span id="line-113"><span class="linenos">113</span><span class="c1"># Reusable service endpoints</span>
+</span><span id="line-114"><span class="linenos">114</span><span class="nt">endpoints</span><span class="p">:</span>
+</span><span id="line-115"><span class="linenos">115</span><span class="w">  </span><span class="nt">app_server</span><span class="p">:</span>
+</span><span id="line-116"><span class="linenos">116</span><span class="w">    </span><span class="nt">endpoint</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">127.0.0.1:80</span>
+</span><span id="line-117"><span class="linenos">117</span><span class="w">    </span><span class="nt">connect_timeout</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.005s</span>
+</span><span id="line-118"><span class="linenos">118</span><span class="w">    </span><span class="nt">protocol</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">http</span><span class="w">        </span><span class="c1"># http or https</span>
+</span><span id="line-119"><span class="linenos">119</span>
+</span><span id="line-120"><span class="linenos">120</span><span class="w">  </span><span class="nt">mistral_local</span><span class="p">:</span>
+</span><span id="line-121"><span class="linenos">121</span><span class="w">    </span><span class="nt">endpoint</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">127.0.0.1:8001</span>
+</span><span id="line-122"><span class="linenos">122</span>
+</span><span id="line-123"><span class="linenos">123</span><span class="w">  </span><span class="nt">secure_service</span><span class="p">:</span>
+</span><span id="line-124"><span class="linenos">124</span><span class="w">    </span><span class="nt">endpoint</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">api.example.com:443</span>
+</span><span id="line-125"><span class="linenos">125</span><span class="w">    </span><span class="nt">protocol</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">https</span>
+</span><span id="line-126"><span class="linenos">126</span><span class="w">    </span><span class="nt">http_host</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">api.example.com</span><span class="w">  </span><span class="c1"># Override the Host header sent upstream</span>
+</span><span id="line-127"><span class="linenos">127</span>
+</span><span id="line-128"><span class="linenos">128</span><span class="c1"># Optional top-level system prompt applied to all prompt_targets</span>
+</span><span id="line-129"><span class="linenos">129</span><span class="nt">system_prompt</span><span class="p">:</span><span class="w"> </span><span class="p p-Indicator">|</span>
+</span><span id="line-130"><span class="linenos">130</span><span class="w">  </span><span class="no">You are a helpful assistant. Always respond concisely and accurately.</span>
+</span><span id="line-131"><span class="linenos">131</span>
+</span><span id="line-132"><span class="linenos">132</span><span class="c1"># Prompt targets for function calling and API orchestration</span>
+</span><span id="line-133"><span class="linenos">133</span><span class="nt">prompt_targets</span><span class="p">:</span>
+</span><span id="line-134"><span class="linenos">134</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">get_current_weather</span>
+</span><span id="line-135"><span class="linenos">135</span><span class="w">    </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">Get current weather at a location.</span>
+</span><span id="line-136"><span class="linenos">136</span><span class="w">    </span><span class="nt">parameters</span><span class="p">:</span>
+</span><span id="line-137"><span class="linenos">137</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">location</span>
+</span><span id="line-138"><span class="linenos">138</span><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">The location to get the weather for</span>
+</span><span id="line-139"><span class="linenos">139</span><span class="w">        </span><span class="nt">required</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
+</span><span id="line-140"><span class="linenos">140</span><span class="w">        </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">string</span>
+</span><span id="line-141"><span class="linenos">141</span><span class="w">        </span><span class="nt">format</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">City, State</span>
+</span><span id="line-142"><span class="linenos">142</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">days</span>
+</span><span id="line-143"><span class="linenos">143</span><span class="w">        </span><span class="nt">description</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">the number of days for the request</span>
+</span><span id="line-144"><span class="linenos">144</span><span class="w">        </span><span class="nt">required</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
+</span><span id="line-145"><span class="linenos">145</span><span class="w">        </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">int</span>
+</span><span id="line-146"><span class="linenos">146</span><span class="w">    </span><span class="nt">endpoint</span><span class="p">:</span>
+</span><span id="line-147"><span class="linenos">147</span><span class="w">      </span><span class="nt">name</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">app_server</span>
+</span><span id="line-148"><span class="linenos">148</span><span class="w">      </span><span class="nt">path</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">/weather</span>
+</span><span id="line-149"><span class="linenos">149</span><span class="w">      </span><span class="nt">http_method</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">POST</span>
+</span><span id="line-150"><span class="linenos">150</span><span class="w">    </span><span class="c1"># Per-target system prompt (overrides top-level system_prompt for this target)</span>
+</span><span id="line-151"><span class="linenos">151</span><span class="w">    </span><span class="nt">system_prompt</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">You are a weather expert. Provide accurate and concise weather information.</span>
+</span><span id="line-152"><span class="linenos">152</span><span class="w">    </span><span class="c1"># auto_llm_dispatch_on_response: when true, the LLM is called again with the</span>
+</span><span id="line-153"><span class="linenos">153</span><span class="w">    </span><span class="c1"># function response to produce a final natural-language answer for the user</span>
+</span><span id="line-154"><span class="linenos">154</span><span class="w">    </span><span class="nt">auto_llm_dispatch_on_response</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
+</span><span id="line-155"><span class="linenos">155</span>
+</span><span id="line-156"><span class="linenos">156</span><span class="c1"># Rate limits - control token usage per model and request selector</span>
+</span><span id="line-157"><span class="linenos">157</span><span class="nt">ratelimits</span><span class="p">:</span>
+</span><span id="line-158"><span class="linenos">158</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-4o</span>
+</span><span id="line-159"><span class="linenos">159</span><span class="w">    </span><span class="nt">selector</span><span class="p">:</span>
+</span><span id="line-160"><span class="linenos">160</span><span class="w">      </span><span class="nt">key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">x-user-id</span><span class="w">       </span><span class="c1"># HTTP header key used to identify the rate-limit subject</span>
+</span><span id="line-161"><span class="linenos">161</span><span class="w">      </span><span class="nt">value</span><span class="p">:</span><span class="w"> </span><span class="s">"*"</span><span class="w">           </span><span class="c1"># Wildcard matches any value; use a specific string to target one</span>
+</span><span id="line-162"><span class="linenos">162</span><span class="w">    </span><span class="nt">limit</span><span class="p">:</span>
+</span><span id="line-163"><span class="linenos">163</span><span class="w">      </span><span class="nt">tokens</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">100000</span><span class="w">       </span><span class="c1"># Maximum tokens allowed in the given time unit</span>
+</span><span id="line-164"><span class="linenos">164</span><span class="w">      </span><span class="nt">unit</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">hour</span><span class="w">           </span><span class="c1"># Time unit: "minute", "hour", or "day"</span>
+</span><span id="line-165"><span class="linenos">165</span>
+</span><span id="line-166"><span class="linenos">166</span><span class="w">  </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="nt">model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">openai/gpt-4o-mini</span>
+</span><span id="line-167"><span class="linenos">167</span><span class="w">    </span><span class="nt">selector</span><span class="p">:</span>
+</span><span id="line-168"><span class="linenos">168</span><span class="w">      </span><span class="nt">key</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">x-org-id</span>
+</span><span id="line-169"><span class="linenos">169</span><span class="w">      </span><span class="nt">value</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">acme-corp</span>
+</span><span id="line-170"><span class="linenos">170</span><span class="w">    </span><span class="nt">limit</span><span class="p">:</span>
+</span><span id="line-171"><span class="linenos">171</span><span class="w">      </span><span class="nt">tokens</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">500000</span>
+</span><span id="line-172"><span class="linenos">172</span><span class="w">      </span><span class="nt">unit</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">day</span>
+</span><span id="line-173"><span class="linenos">173</span>
+</span><span id="line-174"><span class="linenos">174</span><span class="c1"># Global behavior overrides</span>
+</span><span id="line-175"><span class="linenos">175</span><span class="nt">overrides</span><span class="p">:</span>
+</span><span id="line-176"><span class="linenos">176</span><span class="w">  </span><span class="c1"># Threshold for routing a request to a prompt_target (0.0–1.0). Lower = more permissive.</span>
+</span><span id="line-177"><span class="linenos">177</span><span class="w">  </span><span class="nt">prompt_target_intent_matching_threshold</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">0.7</span>
+</span><span id="line-178"><span class="linenos">178</span><span class="w">  </span><span class="c1"># Trim conversation history to fit within the model's context window</span>
+</span><span id="line-179"><span class="linenos">179</span><span class="w">  </span><span class="nt">optimize_context_window</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">true</span>
+</span><span id="line-180"><span class="linenos">180</span><span class="w">  </span><span class="c1"># Use Plano's agent orchestrator for multi-agent request routing</span>
+</span><span id="line-181"><span class="linenos">181</span><span class="w">  </span><span class="nt">use_agent_orchestrator</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">false</span>
+</span><span id="line-182"><span class="linenos">182</span><span class="w">  </span><span class="c1"># Connect timeout for upstream provider clusters (e.g., "5s", "10s"). Default: "5s"</span>
+</span><span id="line-183"><span class="linenos">183</span><span class="w">  </span><span class="nt">upstream_connect_timeout</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">10s</span>
+</span><span id="line-184"><span class="linenos">184</span><span class="w">  </span><span class="c1"># Path to the trusted CA bundle for upstream TLS verification</span>
+</span><span id="line-185"><span class="linenos">185</span><span class="w">  </span><span class="nt">upstream_tls_ca_path</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">/etc/ssl/certs/ca-certificates.crt</span>
+</span><span id="line-186"><span class="linenos">186</span><span class="w">  </span><span class="c1"># Model used for intent-based LLM routing (must be listed in model_providers)</span>
+</span><span id="line-187"><span class="linenos">187</span><span class="w">  </span><span class="nt">llm_routing_model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">Plano-Orchestrator</span>
+</span><span id="line-188"><span class="linenos">188</span><span class="w">  </span><span class="c1"># Model used for agent orchestration (must be listed in model_providers)</span>
+</span><span id="line-189"><span class="linenos">189</span><span class="w">  </span><span class="nt">agent_orchestration_model</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">Plano-Orchestrator</span>
+</span><span id="line-190"><span class="linenos">190</span><span class="w">  </span><span class="c1"># Disable agentic signal analysis (frustration, repetition, escalation, etc.)</span>
+</span><span id="line-191"><span class="linenos">191</span><span class="w">  </span><span class="c1"># on LLM responses to save CPU. Default: false.</span>
+</span><span id="line-192"><span class="linenos">192</span><span class="w">  </span><span class="nt">disable_signals</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">false</span>
+</span><span id="line-193"><span class="linenos">193</span>
+</span><span id="line-194"><span class="linenos">194</span><span class="c1"># Model affinity — pin routing decisions for agentic loops</span>
+</span><span id="line-195"><span class="linenos">195</span><span class="nt">routing</span><span class="p">:</span>
+</span><span id="line-196"><span class="linenos">196</span><span class="w">  </span><span class="nt">session_ttl_seconds</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">600</span><span class="w">    </span><span class="c1"># How long a pinned session lasts (default: 600s / 10 min)</span>
+</span><span id="line-197"><span class="linenos">197</span><span class="w">  </span><span class="nt">session_max_entries</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">10000</span><span class="w">  </span><span class="c1"># Max cached sessions before eviction (upper limit: 10000)</span>
+</span><span id="line-198"><span class="linenos">198</span><span class="w">  </span><span class="c1"># session_cache controls the backend used to store affinity state.</span>
+</span><span id="line-199"><span class="linenos">199</span><span class="w">  </span><span class="c1"># "memory" (default) is in-process and works for single-instance deployments.</span>
+</span><span id="line-200"><span class="linenos">200</span><span class="w">  </span><span class="c1"># "redis" shares state across replicas — required for multi-replica / Kubernetes setups.</span>
+</span><span id="line-201"><span class="linenos">201</span><span class="w">  </span><span class="nt">session_cache</span><span class="p">:</span>
+</span><span id="line-202"><span class="linenos">202</span><span class="w">    </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">memory</span><span class="w">              </span><span class="c1"># "memory" (default) or "redis"</span>
+</span><span id="line-203"><span class="linenos">203</span><span class="w">    </span><span class="c1"># url is required when type is "redis". Supports redis:// and rediss:// (TLS).</span>
+</span><span id="line-204"><span class="linenos">204</span><span class="w">    </span><span class="c1"># url: redis://localhost:6379</span>
+</span><span id="line-205"><span class="linenos">205</span><span class="w">    </span><span class="c1"># tenant_header: x-org-id  # optional; when set, keys are scoped as plano:affinity:{tenant_id}:{session_id}</span>
 </span><span id="line-206"><span class="linenos">206</span>
-</span><span id="line-207"><span class="linenos">207</span><span class="c1"># OpenTelemetry tracing configuration</span>
-</span><span id="line-208"><span class="linenos">208</span><span class="nt">tracing</span><span class="p">:</span>
-</span><span id="line-209"><span class="linenos">209</span><span class="w">  </span><span class="c1"># Random sampling percentage (1-100)</span>
-</span><span id="line-210"><span class="linenos">210</span><span class="w">  </span><span class="nt">random_sampling</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">100</span>
-</span><span id="line-211"><span class="linenos">211</span><span class="w">  </span><span class="c1"># Include internal Plano spans in traces</span>
-</span><span id="line-212"><span class="linenos">212</span><span class="w">  </span><span class="nt">trace_arch_internal</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">false</span>
-</span><span id="line-213"><span class="linenos">213</span><span class="w">  </span><span class="c1"># gRPC endpoint for OpenTelemetry collector (e.g., Jaeger, Tempo)</span>
-</span><span id="line-214"><span class="linenos">214</span><span class="w">  </span><span class="nt">opentracing_grpc_endpoint</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">http://localhost:4317</span>
-</span><span id="line-215"><span class="linenos">215</span><span class="w">  </span><span class="nt">span_attributes</span><span class="p">:</span>
-</span><span id="line-216"><span class="linenos">216</span><span class="w">    </span><span class="c1"># Propagate request headers whose names start with these prefixes as span attributes</span>
-</span><span id="line-217"><span class="linenos">217</span><span class="w">    </span><span class="nt">header_prefixes</span><span class="p">:</span>
-</span><span id="line-218"><span class="linenos">218</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">x-user-</span>
-</span><span id="line-219"><span class="linenos">219</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">x-org-</span>
-</span><span id="line-220"><span class="linenos">220</span><span class="w">    </span><span class="c1"># Static key/value pairs added to every span</span>
-</span><span id="line-221"><span class="linenos">221</span><span class="w">    </span><span class="nt">static</span><span class="p">:</span>
-</span><span id="line-222"><span class="linenos">222</span><span class="w">      </span><span class="nt">environment</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">production</span>
-</span><span id="line-223"><span class="linenos">223</span><span class="w">      </span><span class="nt">service.team</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">platform</span>
+</span><span id="line-207"><span class="linenos">207</span><span class="c1"># State storage for multi-turn conversation history</span>
+</span><span id="line-208"><span class="linenos">208</span><span class="nt">state_storage</span><span class="p">:</span>
+</span><span id="line-209"><span class="linenos">209</span><span class="w">  </span><span class="nt">type</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">memory</span><span class="w">            </span><span class="c1"># "memory" (in-process) or "postgres" (persistent)</span>
+</span><span id="line-210"><span class="linenos">210</span><span class="w">  </span><span class="c1"># connection_string is required when type is postgres.</span>
+</span><span id="line-211"><span class="linenos">211</span><span class="w">  </span><span class="c1"># Supports environment variable substitution: $VAR or ${VAR}</span>
+</span><span id="line-212"><span class="linenos">212</span><span class="w">  </span><span class="c1"># connection_string: postgresql://user:$DB_PASS@localhost:5432/plano</span>
+</span><span id="line-213"><span class="linenos">213</span>
+</span><span id="line-214"><span class="linenos">214</span><span class="c1"># Input guardrails applied globally to all incoming requests</span>
+</span><span id="line-215"><span class="linenos">215</span><span class="nt">prompt_guards</span><span class="p">:</span>
+</span><span id="line-216"><span class="linenos">216</span><span class="w">  </span><span class="nt">input_guards</span><span class="p">:</span>
+</span><span id="line-217"><span class="linenos">217</span><span class="w">    </span><span class="nt">jailbreak</span><span class="p">:</span>
+</span><span id="line-218"><span class="linenos">218</span><span class="w">      </span><span class="nt">on_exception</span><span class="p">:</span>
+</span><span id="line-219"><span class="linenos">219</span><span class="w">        </span><span class="nt">message</span><span class="p">:</span><span class="w"> </span><span class="s">"I'm</span><span class="nv"> </span><span class="s">sorry,</span><span class="nv"> </span><span class="s">I</span><span class="nv"> </span><span class="s">can't</span><span class="nv"> </span><span class="s">help</span><span class="nv"> </span><span class="s">with</span><span class="nv"> </span><span class="s">that</span><span class="nv"> </span><span class="s">request."</span>
+</span><span id="line-220"><span class="linenos">220</span>
+</span><span id="line-221"><span class="linenos">221</span><span class="c1"># OpenTelemetry tracing configuration</span>
+</span><span id="line-222"><span class="linenos">222</span><span class="nt">tracing</span><span class="p">:</span>
+</span><span id="line-223"><span class="linenos">223</span><span class="w">  </span><span class="c1"># Random sampling percentage (1-100)</span>
+</span><span id="line-224"><span class="linenos">224</span><span class="w">  </span><span class="nt">random_sampling</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">100</span>
+</span><span id="line-225"><span class="linenos">225</span><span class="w">  </span><span class="c1"># Include internal Plano spans in traces</span>
+</span><span id="line-226"><span class="linenos">226</span><span class="w">  </span><span class="nt">trace_arch_internal</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">false</span>
+</span><span id="line-227"><span class="linenos">227</span><span class="w">  </span><span class="c1"># gRPC endpoint for OpenTelemetry collector (e.g., Jaeger, Tempo)</span>
+</span><span id="line-228"><span class="linenos">228</span><span class="w">  </span><span class="nt">opentracing_grpc_endpoint</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">http://localhost:4317</span>
+</span><span id="line-229"><span class="linenos">229</span><span class="w">  </span><span class="nt">span_attributes</span><span class="p">:</span>
+</span><span id="line-230"><span class="linenos">230</span><span class="w">    </span><span class="c1"># Propagate request headers whose names start with these prefixes as span attributes</span>
+</span><span id="line-231"><span class="linenos">231</span><span class="w">    </span><span class="nt">header_prefixes</span><span class="p">:</span>
+</span><span id="line-232"><span class="linenos">232</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">x-user-</span>
+</span><span id="line-233"><span class="linenos">233</span><span class="w">      </span><span class="p p-Indicator">-</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">x-org-</span>
+</span><span id="line-234"><span class="linenos">234</span><span class="w">    </span><span class="c1"># Static key/value pairs added to every span</span>
+</span><span id="line-235"><span class="linenos">235</span><span class="w">    </span><span class="nt">static</span><span class="p">:</span>
+</span><span id="line-236"><span class="linenos">236</span><span class="w">      </span><span class="nt">environment</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">production</span>
+</span><span id="line-237"><span class="linenos">237</span><span class="w">      </span><span class="nt">service.team</span><span class="p">:</span><span class="w"> </span><span class="l l-Scalar l-Scalar-Plain">platform</span>
 </span></code></pre></div>
 </div>
 </div>
--- a/searchindex.js
+++ b/searchindex.js