plano/demos/llm_routing/model_routing_service/metrics_server.py

"""
Minimal Prometheus metrics server for demo purposes.
Exposes mock P95 latency data for model routing.
"""
from http.server import HTTPServer, BaseHTTPRequestHandler

METRICS = """\
# HELP model_latency_p95_seconds P95 request latency in seconds per model
# TYPE model_latency_p95_seconds gauge
model_latency_p95_seconds{model_name="anthropic/claude-sonnet-4-20250514"} 0.85
model_latency_p95_seconds{model_name="openai/gpt-4o"} 1.20
model_latency_p95_seconds{model_name="openai/gpt-4o-mini"} 0.40
""".encode()


class MetricsHandler(BaseHTTPRequestHandler):
    def do_GET(self):
        self.send_response(200)
        self.send_header("Content-Type", "text/plain; version=0.0.4; charset=utf-8")
        self.end_headers()
        self.wfile.write(METRICS)

    def log_message(self, fmt, *args):
        pass  # suppress access logs


if __name__ == "__main__":
    server = HTTPServer(("", 8080), MetricsHandler)
    print("metrics server listening on :8080", flush=True)
    server.serve_forever()
add DigitalOcean pricing, startup validation, and demo update - MetricsSource::DigitalOceanPricing variant: fetch public DO Gen-AI pricing, normalize as lowercase(creator)/model_id, cost = input + output per million - cost_metrics endpoint format updated to { "model": { "input_per_million": X, "output_per_million": Y } } - Startup errors: prefer:cheapest requires cost source, prefer:fastest requires prometheus - Startup warning: models with no pricing/latency data ranked last - One-per-type enforcement: digitalocean_pricing; error if cost_metrics + digitalocean_pricing both configured - cost_snapshot() / latency_snapshot() on ModelMetricsService for startup checks - Demo config updated to v0.4.0 top-level routing_preferences with cheapest + fastest policies - docker-compose.yaml + prometheus.yaml + metrics_server.py for demo latency metrics - Schema and docs updated 2026-03-27 16:54:37 -07:00			`"""`
			`Minimal Prometheus metrics server for demo purposes.`
			`Exposes mock P95 latency data for model routing.`
			`"""`
			`from http.server import HTTPServer, BaseHTTPRequestHandler`

			`METRICS = """\`
			`# HELP model_latency_p95_seconds P95 request latency in seconds per model`
			`# TYPE model_latency_p95_seconds gauge`
			`model_latency_p95_seconds{model_name="anthropic/claude-sonnet-4-20250514"} 0.85`
			`model_latency_p95_seconds{model_name="openai/gpt-4o"} 1.20`
			`model_latency_p95_seconds{model_name="openai/gpt-4o-mini"} 0.40`
			`""".encode()`


			`class MetricsHandler(BaseHTTPRequestHandler):`
			`def do_GET(self):`
			`self.send_response(200)`
			`self.send_header("Content-Type", "text/plain; version=0.0.4; charset=utf-8")`
			`self.end_headers()`
			`self.wfile.write(METRICS)`

			`def log_message(self, fmt, *args):`
			`pass # suppress access logs`


			`if __name__ == "__main__":`
			`server = HTTPServer(("", 8080), MetricsHandler)`
			`print("metrics server listening on :8080", flush=True)`
			`server.serve_forever()`