fix: fix interruption handling for Gemini Live

1. Fixes #236 2. Fix run_inference for variable extraction for Gemini Live
2026-06-22 08:38:13 +02:00 · 2026-04-15 19:29:07 +05:30 · 2026-04-15 19:29:07 +05:30 · e31b38122e
commit e31b38122e
parent 14e6f29f2f
12 changed files with 48 additions and 15 deletions
--- a/api/services/workflow/pipecat_engine.py
+++ b/api/services/workflow/pipecat_engine.py
@ -60,6 +60,7 @@ class PipecatEngine:
        *,
        task: Optional[PipelineTask] = None,
        llm: Optional["LLMService"] = None,
+        inference_llm: Optional["LLMService"] = None,
        context: Optional[LLMContext] = None,
        workflow: WorkflowGraph,
        call_context_vars: dict,
@ -75,6 +76,12 @@ class PipecatEngine:
    ):
        self.task = task
        self.llm = llm
+        # LLM used for out-of-band inference (variable extraction, context
+        # summarization). Falls back to the pipeline LLM when not provided.
+        # In realtime mode the pipeline LLM is a speech-to-speech service
+        # that does not implement run_inference, so a separate text LLM
+        # must be passed in.
+        self.inference_llm = inference_llm or llm
        self.context = context
        self.workflow = workflow
        self._call_context_vars = call_context_vars