Update LLMs to LlmService API (#353)

2026-04-27 01:16:22 +02:00 · 2025-04-25 19:57:42 +01:00 · 2025-04-25 19:57:42 +01:00 · 5af7909122
commit 5af7909122
parent 099018e103
13 changed files with 297 additions and 969 deletions
--- a/trustgraph-flow/trustgraph/model/text_completion/claude/llm.py
+++ b/trustgraph-flow/trustgraph/model/text_completion/claude/llm.py
@ -5,33 +5,22 @@ Input is prompt, output is response.
 """

 import anthropic
-from prometheus_client import Histogram
 import os

-from .... schema import TextCompletionRequest, TextCompletionResponse, Error
-from .... schema import text_completion_request_queue
-from .... schema import text_completion_response_queue
-from .... log_level import LogLevel
-from .... base import ConsumerProducer
 from .... exceptions import TooManyRequests
+from .... base import LlmService, LlmResult

-module = "text-completion"
+default_ident = "text-completion"

-default_input_queue = text_completion_request_queue
-default_output_queue = text_completion_response_queue
-default_subscriber = module
 default_model = 'claude-3-5-sonnet-20240620'
 default_temperature = 0.0
 default_max_output = 8192
 default_api_key = os.getenv("CLAUDE_KEY")

-class Processor(ConsumerProducer):
+class Processor(LlmService):

    def __init__(self, **params):
    
-        input_queue = params.get("input_queue", default_input_queue)
-        output_queue = params.get("output_queue", default_output_queue)
-        subscriber = params.get("subscriber", default_subscriber)
        model = params.get("model", default_model)
        api_key = params.get("api_key", default_api_key)
        temperature = params.get("temperature", default_temperature)
@ -42,30 +31,12 @@ class Processor(ConsumerProducer):

        super(Processor, self).__init__(
            **params | {
-                "input_queue": input_queue,
-                "output_queue": output_queue,
-                "subscriber": subscriber,
-                "input_schema": TextCompletionRequest,
-                "output_schema": TextCompletionResponse,
                "model": model,
                "temperature": temperature,
                "max_output": max_output,
            }
        )

-        if not hasattr(__class__, "text_completion_metric"):
-            __class__.text_completion_metric = Histogram(
-                'text_completion_duration',
-                'Text completion duration (seconds)',
-                buckets=[
-                    0.25, 0.5, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0,
-                    8.0, 9.0, 10.0, 11.0, 12.0, 13.0, 14.0, 15.0, 16.0,
-                    17.0, 18.0, 19.0, 20.0, 21.0, 22.0, 23.0, 24.0, 25.0,
-                    30.0, 35.0, 40.0, 45.0, 50.0, 60.0, 80.0, 100.0,
-                    120.0
-                ]
-            )
-
        self.model = model
        self.claude = anthropic.Anthropic(api_key=api_key)
        self.temperature = temperature
@ -73,39 +44,27 @@ class Processor(ConsumerProducer):

        print("Initialised", flush=True)

-    async def handle(self, msg):
-
-        v = msg.value()
-
-        # Sender-produced ID
-
-        id = msg.properties()["id"]
-
-        print(f"Handling prompt {id}...", flush=True)
-
-        prompt = v.prompt
+    async def generate_content(self, system, prompt):

        try:

-            with __class__.text_completion_metric.time():
-
-                response = message = self.claude.messages.create(
-                    model=self.model,
-                    max_tokens=self.max_output,
-                    temperature=self.temperature,
-                    system = v.system,
-                    messages=[
-                        {
-                            "role": "user",
-                            "content": [
-                                {
-                                    "type": "text",
-                                    "text": prompt
-                                }
-                            ]
-                        }
-                    ]
-                )
+            response = message = self.claude.messages.create(
+                model=self.model,
+                max_tokens=self.max_output,
+                temperature=self.temperature,
+                system = system,
+                messages=[
+                    {
+                        "role": "user",
+                        "content": [
+                            {
+                                "type": "text",
+                                "text": prompt
+                            }
+                        ]
+                    }
+                ]
+            )

            resp = response.content[0].text
            inputtokens = response.usage.input_tokens
@ -114,17 +73,14 @@ class Processor(ConsumerProducer):
            print(f"Input Tokens: {inputtokens}", flush=True)
            print(f"Output Tokens: {outputtokens}", flush=True)

-            print("Send response...", flush=True)
-            r = TextCompletionResponse(
-                response=resp,
-                error=None,
-                in_token=inputtokens,
-                out_token=outputtokens,
-                model=self.model
+            resp = LlmResult(
+                text = resp,
+                in_token = inputtokens,
+                out_token = outputtokens,
+                model = self.model
            )
-            self.send(r, properties={"id": id})

-            print("Done.", flush=True)
+            return resp

        except anthropic.RateLimitError:

@ -136,31 +92,12 @@ class Processor(ConsumerProducer):
            # Apart from rate limits, treat all exceptions as unrecoverable

            print(f"Exception: {e}")
-
-            print("Send error response...", flush=True)
-
-            r = TextCompletionResponse(
-                error=Error(
-                    type = "llm-error",
-                    message = str(e),
-                ),
-                response=None,
-                in_token=None,
-                out_token=None,
-                model=None,
-            )
-
-            await self.send(r, properties={"id": id})
-
-            self.consumer.acknowledge(msg)
+            raise e

    @staticmethod
    def add_args(parser):

-        ConsumerProducer.add_args(
-            parser, default_input_queue, default_subscriber,
-            default_output_queue,
-        )
+        LlmService.add_args(parser)

        parser.add_argument(
            '-m', '--model',
@ -189,7 +126,5 @@ class Processor(ConsumerProducer):
        )

 def run():
-
-    Processor.launch(module, __doc__)
-
    
+    Processor.launch(default_ident, __doc__)