trustgraph/trustgraph/model/text_completion/vertexai/llm.py


"""
Simple LLM service, performs text prompt completion using VertexAI on
Google Cloud.   Input is prompt, output is response.
"""

import vertexai
import time

from google.oauth2 import service_account
import google

from vertexai.preview.generative_models import (
    Content,
    FunctionDeclaration,
    GenerativeModel,
    GenerationConfig,
    HarmCategory,
    HarmBlockThreshold,
    Part,
    Tool,
)

from .... schema import TextCompletionRequest, TextCompletionResponse
from .... schema import text_completion_request_queue
from .... schema import text_completion_response_queue
from .... log_level import LogLevel
from .... base import ConsumerProducer
from .... exceptions import TooManyRequests

module = ".".join(__name__.split(".")[1:-1])

default_input_queue = text_completion_request_queue
default_output_queue = text_completion_response_queue
default_subscriber = module

class Processor(ConsumerProducer):

    def __init__(self, **params):

        input_queue = params.get("input_queue", default_input_queue)
        output_queue = params.get("output_queue", default_output_queue)
        subscriber = params.get("subscriber", default_subscriber)
        region = params.get("region", "us-west1")
        model = params.get("model", "gemini-1.0-pro-001")
        private_key = params.get("private_key")

        super(Processor, self).__init__(
            **params | {
                "input_queue": input_queue,
                "output_queue": output_queue,
                "subscriber": subscriber,
                "input_schema": TextCompletionRequest,
                "output_schema": TextCompletionResponse,
            }
        )

        self.parameters = {
            "temperature": 0.2,
            "top_p": 1.0,
            "top_k": 32,
            "candidate_count": 1,
            "max_output_tokens": 8192,
        }

        self.generation_config = GenerationConfig(
            temperature=0.2,
            top_p=1.0,
            top_k=10,
            candidate_count=1,
            max_output_tokens=8191,
        )

        # Block none doesn't seem to work
        block_level = HarmBlockThreshold.BLOCK_ONLY_HIGH
        #     block_level = HarmBlockThreshold.BLOCK_NONE

        self.safety_settings = {
            HarmCategory.HARM_CATEGORY_HARASSMENT: block_level,
            HarmCategory.HARM_CATEGORY_HATE_SPEECH: block_level,
            HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: block_level,
            HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: block_level,
        }

        print("Initialise VertexAI...", flush=True)

        if private_key:
            credentials = service_account.Credentials.from_service_account_file(private_key)
        else:
            credentials = None

        if credentials:
            vertexai.init(
                location=region,
                credentials=credentials,
                project=credentials.project_id,
            )
        else:
            vertexai.init(
                location=region
            )

        print(f"Initialise model {model}", flush=True)
        self.llm = GenerativeModel(model)

        print("Initialisation complete", flush=True)

    def handle(self, msg):

        try:

            v = msg.value()

            # Sender-produced ID

            id = msg.properties()["id"]

            print(f"Handling prompt {id}...", flush=True)

            prompt = v.prompt

            resp = self.llm.generate_content(
                prompt, generation_config=self.generation_config,
                safety_settings=self.safety_settings
            )

            resp = resp.text

            resp = resp.replace("```json", "")
            resp = resp.replace("```", "")

            print("Send response...", flush=True)
            r = TextCompletionResponse(response=resp)
            self.producer.send(r, properties={"id": id})

            print("Done.", flush=True)

            # Acknowledge successful processing of the message
            self.consumer.acknowledge(msg)

        except google.api_core.exceptions.ResourceExhausted:

            # 429 / rate limits case
            raise TooManyRequests

        # Let other exceptions fall through

    @staticmethod
    def add_args(parser):

        ConsumerProducer.add_args(
            parser, default_input_queue, default_subscriber,
            default_output_queue,
        )

        parser.add_argument(
            '-m', '--model',
            default="gemini-1.0-pro-001",
            help=f'LLM model (default: gemini-1.0-pro-001)'
        )
        # Also: text-bison-32k

        parser.add_argument(
            '-k', '--private-key',
            help=f'Google Cloud private JSON file'
        )

        parser.add_argument(
            '-r', '--region',
            default='us-west1',
            help=f'Google Cloud region (default: us-west1)',
        )

def run():

    Processor.start(module, __doc__)
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
			`"""`
Updated doc strings 2024-07-12 15:12:40 +01:00			`Simple LLM service, performs text prompt completion using VertexAI on`
			`Google Cloud. Input is prompt, output is response.`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00			`"""`

			`import vertexai`
			`import time`

			`from google.oauth2 import service_account`
			`import google`

			`from vertexai.preview.generative_models import (`
			`Content,`
			`FunctionDeclaration,`
			`GenerativeModel,`
			`GenerationConfig,`
			`HarmCategory,`
			`HarmBlockThreshold,`
			`Part,`
			`Tool,`
			`)`

Refactor names (#4) - Downsize embeddings model to mini-lm in docker-compose files - Rename for structure - Default queues defined in schema file - Standardize naming: graph embeddings, chunk embeddings, triples 2024-07-23 21:34:03 +01:00			`from .... schema import TextCompletionRequest, TextCompletionResponse`
			`from .... schema import text_completion_request_queue`
			`from .... schema import text_completion_response_queue`
			`from .... log_level import LogLevel`
			`from .... base import ConsumerProducer`
Rate limit handling (#11) * Added a rate limit exception * Reduce request/response timeouts because looks like there are major issues * Add rate limit exception catch to all consumers * Version to 0.6.3 2024-08-19 22:15:32 +01:00			`from .... exceptions import TooManyRequests`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Refactor names (#4) - Downsize embeddings model to mini-lm in docker-compose files - Rename for structure - Default queues defined in schema file - Standardize naming: graph embeddings, chunk embeddings, triples 2024-07-23 21:34:03 +01:00			`module = ".".join(__name__.split(".")[1:-1])`

			`default_input_queue = text_completion_request_queue`
			`default_output_queue = text_completion_response_queue`
			`default_subscriber = module`
Processor model prototype 2024-07-15 17:17:04 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`class Processor(ConsumerProducer):`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Metrics (#3) * Basic metrics working * Add consumer & producer metrics * Grafana & Prometheus in docker compose 2024-07-18 17:20:42 +01:00			`def __init__(self, **params):`

			`input_queue = params.get("input_queue", default_input_queue)`
			`output_queue = params.get("output_queue", default_output_queue)`
			`subscriber = params.get("subscriber", default_subscriber)`
			`region = params.get("region", "us-west1")`
			`model = params.get("model", "gemini-1.0-pro-001")`
			`private_key = params.get("private_key")`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`super(Processor, self).__init__(`
Metrics (#3) * Basic metrics working * Add consumer & producer metrics * Grafana & Prometheus in docker compose 2024-07-18 17:20:42 +01:00			`**params \| {`
			`"input_queue": input_queue,`
			`"output_queue": output_queue,`
			`"subscriber": subscriber,`
			`"input_schema": TextCompletionRequest,`
			`"output_schema": TextCompletionResponse,`
			`}`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00			`)`

			`self.parameters = {`
			`"temperature": 0.2,`
			`"top_p": 1.0,`
			`"top_k": 32,`
			`"candidate_count": 1,`
			`"max_output_tokens": 8192,`
			`}`

			`self.generation_config = GenerationConfig(`
			`temperature=0.2,`
			`top_p=1.0,`
			`top_k=10,`
			`candidate_count=1,`
			`max_output_tokens=8191,`
			`)`

			`# Block none doesn't seem to work`
			`block_level = HarmBlockThreshold.BLOCK_ONLY_HIGH`
			`# block_level = HarmBlockThreshold.BLOCK_NONE`

			`self.safety_settings = {`
			`HarmCategory.HARM_CATEGORY_HARASSMENT: block_level,`
			`HarmCategory.HARM_CATEGORY_HATE_SPEECH: block_level,`
			`HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: block_level,`
			`HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: block_level,`
			`}`

			`print("Initialise VertexAI...", flush=True)`

Other LLMs 2024-07-17 17:18:24 +01:00			`if private_key:`
			`credentials = service_account.Credentials.from_service_account_file(private_key)`
			`else:`
			`credentials = None`

Trustgraph initial code drop 2024-07-10 23:20:06 +01:00			`if credentials:`
			`vertexai.init(`
			`location=region,`
			`credentials=credentials,`
			`project=credentials.project_id,`
			`)`
			`else:`
			`vertexai.init(`
			`location=region`
			`)`

			`print(f"Initialise model {model}", flush=True)`
			`self.llm = GenerativeModel(model)`

			`print("Initialisation complete", flush=True)`

Other LLMs 2024-07-17 17:18:24 +01:00			`def handle(self, msg):`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`try:`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`v = msg.value()`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`# Sender-produced ID`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`id = msg.properties()["id"]`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`print(f"Handling prompt {id}...", flush=True)`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`prompt = v.prompt`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`resp = self.llm.generate_content(`
			`prompt, generation_config=self.generation_config,`
			`safety_settings=self.safety_settings`
			`)`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`resp = resp.text`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			resp = resp.replace("```json", "")
			resp = resp.replace("```", "")
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`print("Send response...", flush=True)`
			`r = TextCompletionResponse(response=resp)`
			`self.producer.send(r, properties={"id": id})`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`print("Done.", flush=True)`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`# Acknowledge successful processing of the message`
			`self.consumer.acknowledge(msg)`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`except google.api_core.exceptions.ResourceExhausted:`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Rate limit handling (#11) * Added a rate limit exception * Reduce request/response timeouts because looks like there are major issues * Add rate limit exception catch to all consumers * Version to 0.6.3 2024-08-19 22:15:32 +01:00			`# 429 / rate limits case`
			`raise TooManyRequests`
Processor model prototype 2024-07-15 17:17:04 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`# Let other exceptions fall through`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`@staticmethod`
			`def add_args(parser):`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`ConsumerProducer.add_args(`
			`parser, default_input_queue, default_subscriber,`
			`default_output_queue,`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00			`)`

Other LLMs 2024-07-17 17:18:24 +01:00			`parser.add_argument(`
			`'-m', '--model',`
			`default="gemini-1.0-pro-001",`
			`help=f'LLM model (default: gemini-1.0-pro-001)'`
			`)`
			`# Also: text-bison-32k`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`parser.add_argument(`
			`'-k', '--private-key',`
			`help=f'Google Cloud private JSON file'`
			`)`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`parser.add_argument(`
			`'-r', '--region',`
			`default='us-west1',`
			`help=f'Google Cloud region (default: us-west1)',`
			`)`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Other LLMs 2024-07-17 17:18:24 +01:00			`def run():`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00
Refactor names (#4) - Downsize embeddings model to mini-lm in docker-compose files - Rename for structure - Default queues defined in schema file - Standardize naming: graph embeddings, chunk embeddings, triples 2024-07-23 21:34:03 +01:00			`Processor.start(module, __doc__)`
Trustgraph initial code drop 2024-07-10 23:20:06 +01:00