Feature/configure flows (#345)

- Keeps processing in different flows separate so that data can go to different stores / collections etc. - Potentially supports different processing flows - Tidies the processing API with common base-classes for e.g. LLMs, and automatic configuration of 'clients' to use the right queue names in a flow
2026-05-03 20:32:38 +02:00 · 2025-04-22 20:21:38 +01:00 · 2025-04-22 20:21:38 +01:00 · a9197d11ee
commit a9197d11ee
parent a06a814a41
125 changed files with 3751 additions and 2628 deletions
--- a/trustgraph-flow/trustgraph/query/doc_embeddings/milvus/service.py
+++ b/trustgraph-flow/trustgraph/query/doc_embeddings/milvus/service.py
@ -11,7 +11,7 @@ from .... schema import document_embeddings_request_queue
 from .... schema import document_embeddings_response_queue
 from .... base import ConsumerProducer

-module = ".".join(__name__.split(".")[1:-1])
+module = "de-query"

 default_input_queue = document_embeddings_request_queue
 default_output_queue = document_embeddings_response_queue
--- a/trustgraph-flow/trustgraph/query/doc_embeddings/pinecone/service.py
+++ b/trustgraph-flow/trustgraph/query/doc_embeddings/pinecone/service.py
@ -16,7 +16,7 @@ from .... schema import document_embeddings_request_queue
 from .... schema import document_embeddings_response_queue
 from .... base import ConsumerProducer

-module = ".".join(__name__.split(".")[1:-1])
+module = "de-query"

 default_input_queue = document_embeddings_request_queue
 default_output_queue = document_embeddings_response_queue
--- a/trustgraph-flow/trustgraph/query/doc_embeddings/qdrant/service.py
+++ b/trustgraph-flow/trustgraph/query/doc_embeddings/qdrant/service.py
@ -7,71 +7,51 @@ of chunks
 from qdrant_client import QdrantClient
 from qdrant_client.models import PointStruct
 from qdrant_client.models import Distance, VectorParams
-import uuid

-from .... schema import DocumentEmbeddingsRequest, DocumentEmbeddingsResponse
+from .... schema import DocumentEmbeddingsResponse
 from .... schema import Error, Value
-from .... schema import document_embeddings_request_queue
-from .... schema import document_embeddings_response_queue
-from .... base import ConsumerProducer
+from .... base import DocumentEmbeddingsQueryService

-module = ".".join(__name__.split(".")[1:-1])
+default_ident = "de-query"

-default_input_queue = document_embeddings_request_queue
-default_output_queue = document_embeddings_response_queue
-default_subscriber = module
 default_store_uri = 'http://localhost:6333'

-class Processor(ConsumerProducer):
+class Processor(DocumentEmbeddingsQueryService):

    def __init__(self, **params):

-        input_queue = params.get("input_queue", default_input_queue)
-        output_queue = params.get("output_queue", default_output_queue)
-        subscriber = params.get("subscriber", default_subscriber)
        store_uri = params.get("store_uri", default_store_uri)
+
        #optional api key
        api_key = params.get("api_key", None)

        super(Processor, self).__init__(
            **params | {
-                "input_queue": input_queue,
-                "output_queue": output_queue,
-                "subscriber": subscriber,
-                "input_schema": DocumentEmbeddingsRequest,
-                "output_schema": DocumentEmbeddingsResponse,
                "store_uri": store_uri,
                "api_key": api_key,
            }
        )

-        self.client = QdrantClient(url=store_uri, api_key=api_key)
+        self.qdrant = QdrantClient(url=store_uri, api_key=api_key)

-    async def handle(self, msg):
+    async def query_document_embeddings(self, msg):

        try:

-            v = msg.value()
-
-            # Sender-produced ID
-            id = msg.properties()["id"]
-
-            print(f"Handling input {id}...", flush=True)
-
            chunks = []

-            for vec in v.vectors:
+            for vec in msg.vectors:

                dim = len(vec)
                collection = (
-                    "d_" + v.user + "_" + v.collection + "_" +
+                    "d_" + msg.user + "_" + msg.collection + "_" +
                    str(dim)
                )

-                search_result = self.client.query_points(
+                search_result = self.qdrant.query_points(
                    collection_name=collection,
                    query=vec,
-                    limit=v.limit,
+                    limit=msg.limit,
                    with_payload=True,
                ).points

@ -79,37 +59,17 @@ class Processor(ConsumerProducer):
                    ent = r.payload["doc"]
                    chunks.append(ent)

-            print("Send response...", flush=True)
-            r = DocumentEmbeddingsResponse(documents=chunks, error=None)
-            await self.send(r, properties={"id": id})
-
-            print("Done.", flush=True)
+            return chunks

        except Exception as e:

            print(f"Exception: {e}")
-
-            print("Send error response...", flush=True)
-
-            r = DocumentEmbeddingsResponse(
-                error=Error(
-                    type = "llm-error",
-                    message = str(e),
-                ),
-                documents=None,
-            )
-
-            await self.send(r, properties={"id": id})
-
-            self.consumer.acknowledge(msg)
+            raise e

    @staticmethod
    def add_args(parser):

-        ConsumerProducer.add_args(
-            parser, default_input_queue, default_subscriber,
-            default_output_queue,
-        )
+        DocumentEmbeddingsQueryService.add_args(parser)

        parser.add_argument(
            '-t', '--store-uri',
@ -125,5 +85,5 @@ class Processor(ConsumerProducer):

 def run():

-    Processor.launch(module, __doc__)
+    Processor.launch(default_ident, __doc__)

--- a/trustgraph-flow/trustgraph/query/graph_embeddings/milvus/service.py
+++ b/trustgraph-flow/trustgraph/query/graph_embeddings/milvus/service.py
@ -11,7 +11,7 @@ from .... schema import graph_embeddings_request_queue
 from .... schema import graph_embeddings_response_queue
 from .... base import ConsumerProducer

-module = ".".join(__name__.split(".")[1:-1])
+module = "ge-query"

 default_input_queue = graph_embeddings_request_queue
 default_output_queue = graph_embeddings_response_queue
--- a/trustgraph-flow/trustgraph/query/graph_embeddings/pinecone/service.py
+++ b/trustgraph-flow/trustgraph/query/graph_embeddings/pinecone/service.py
@ -16,7 +16,7 @@ from .... schema import graph_embeddings_request_queue
 from .... schema import graph_embeddings_response_queue
 from .... base import ConsumerProducer

-module = ".".join(__name__.split(".")[1:-1])
+module = "ge-query"

 default_input_queue = graph_embeddings_request_queue
 default_output_queue = graph_embeddings_response_queue
--- a/trustgraph-flow/trustgraph/query/graph_embeddings/qdrant/service.py
+++ b/trustgraph-flow/trustgraph/query/graph_embeddings/qdrant/service.py
@ -7,44 +7,32 @@ entities
 from qdrant_client import QdrantClient
 from qdrant_client.models import PointStruct
 from qdrant_client.models import Distance, VectorParams
-import uuid

-from .... schema import GraphEmbeddingsRequest, GraphEmbeddingsResponse
+from .... schema import GraphEmbeddingsResponse
 from .... schema import Error, Value
-from .... schema import graph_embeddings_request_queue
-from .... schema import graph_embeddings_response_queue
-from .... base import ConsumerProducer
+from .... base import GraphEmbeddingsQueryService

-module = ".".join(__name__.split(".")[1:-1])
+default_ident = "ge-query"

-default_input_queue = graph_embeddings_request_queue
-default_output_queue = graph_embeddings_response_queue
-default_subscriber = module
 default_store_uri = 'http://localhost:6333'

-class Processor(ConsumerProducer):
+class Processor(GraphEmbeddingsQueryService):

    def __init__(self, **params):

-        input_queue = params.get("input_queue", default_input_queue)
-        output_queue = params.get("output_queue", default_output_queue)
-        subscriber = params.get("subscriber", default_subscriber)
        store_uri = params.get("store_uri", default_store_uri)
+
+        #optional api key
        api_key = params.get("api_key", None)

        super(Processor, self).__init__(
            **params | {
-                "input_queue": input_queue,
-                "output_queue": output_queue,
-                "subscriber": subscriber,
-                "input_schema": GraphEmbeddingsRequest,
-                "output_schema": GraphEmbeddingsResponse,
                "store_uri": store_uri,
                "api_key": api_key,
            }
        )

-        self.client = QdrantClient(url=store_uri, api_key=api_key)
+        self.qdrant = QdrantClient(url=store_uri, api_key=api_key)

    def create_value(self, ent):
        if ent.startswith("http://") or ent.startswith("https://"):
@ -52,34 +40,27 @@ class Processor(ConsumerProducer):
        else:
            return Value(value=ent, is_uri=False)
        
-    async def handle(self, msg):
+    async def query_graph_embeddings(self, msg):

        try:

-            v = msg.value()
-
-            # Sender-produced ID
-            id = msg.properties()["id"]
-
-            print(f"Handling input {id}...", flush=True)
-
            entity_set = set()
            entities = []

-            for vec in v.vectors:
+            for vec in msg.vectors:

                dim = len(vec)
                collection = (
-                    "t_" + v.user + "_" + v.collection + "_" +
+                    "t_" + msg.user + "_" + msg.collection + "_" +
                    str(dim)
                )

                # Heuristic hack, get (2*limit), so that we have more chance
                # of getting (limit) entities
-                search_result = self.client.query_points(
+                search_result = self.qdrant.query_points(
                    collection_name=collection,
                    query=vec,
-                    limit=v.limit * 2,
+                    limit=msg.limit * 2,
                    with_payload=True,
                ).points

@ -92,10 +73,10 @@ class Processor(ConsumerProducer):
                        entities.append(ent)

                    # Keep adding entities until limit
-                    if len(entity_set) >= v.limit: break
+                    if len(entity_set) >= msg.limit: break

                # Keep adding entities until limit
-                if len(entity_set) >= v.limit: break
+                if len(entity_set) >= msg.limit: break

            ents2 = []

@ -105,36 +86,19 @@ class Processor(ConsumerProducer):
            entities = ents2

            print("Send response...", flush=True)
-            r = GraphEmbeddingsResponse(entities=entities, error=None)
-            await self.send(r, properties={"id": id})
+            return entities

            print("Done.", flush=True)

        except Exception as e:

            print(f"Exception: {e}")
-
-            print("Send error response...", flush=True)
-
-            r = GraphEmbeddingsResponse(
-                error=Error(
-                    type = "llm-error",
-                    message = str(e),
-                ),
-                entities=None,
-            )
-
-            await self.send(r, properties={"id": id})
-
-            self.consumer.acknowledge(msg)
+            raise e

    @staticmethod
    def add_args(parser):

-        ConsumerProducer.add_args(
-            parser, default_input_queue, default_subscriber,
-            default_output_queue,
-        )
+        GraphEmbeddingsQueryService.add_args(parser)

        parser.add_argument(
            '-t', '--store-uri',
@ -150,5 +114,5 @@ class Processor(ConsumerProducer):

 def run():

-    Processor.launch(module, __doc__)
+    Processor.launch(default_ident, __doc__)

--- a/trustgraph-flow/trustgraph/query/triples/cassandra/service.py
+++ b/trustgraph-flow/trustgraph/query/triples/cassandra/service.py
@ -7,38 +7,24 @@ null.  Output is a list of triples.
 from .... direct.cassandra import TrustGraph
 from .... schema import TriplesQueryRequest, TriplesQueryResponse, Error
 from .... schema import Value, Triple
-from .... schema import triples_request_queue
-from .... schema import triples_response_queue
-from .... base import ConsumerProducer
+from .... base import TriplesQueryService

-module = ".".join(__name__.split(".")[1:-1])
+default_ident = "triples-query"

-default_input_queue = triples_request_queue
-default_output_queue = triples_response_queue
-default_subscriber = module
 default_graph_host='localhost'

-class Processor(ConsumerProducer):
+class Processor(TriplesQueryService):

    def __init__(self, **params):

-        input_queue = params.get("input_queue", default_input_queue)
-        output_queue = params.get("output_queue", default_output_queue)
-        subscriber = params.get("subscriber", default_subscriber)
        graph_host = params.get("graph_host", default_graph_host)
        graph_username = params.get("graph_username", None)
        graph_password = params.get("graph_password", None)

        super(Processor, self).__init__(
            **params | {
-                "input_queue": input_queue,
-                "output_queue": output_queue,
-                "subscriber": subscriber,
-                "input_schema": TriplesQueryRequest,
-                "output_schema": TriplesQueryResponse,
                "graph_host": graph_host,
                "graph_username": graph_username,
-                "graph_password": graph_password,
            }
        )

@ -53,92 +39,85 @@ class Processor(ConsumerProducer):
        else:
            return Value(value=ent, is_uri=False)

-    async def handle(self, msg):
+    async def query_triples(self, query):

        try:

-            v = msg.value()
-
-            table = (v.user, v.collection)
+            table = (query.user, query.collection)

            if table != self.table:
                if self.username and self.password:
                    self.tg = TrustGraph(
                        hosts=self.graph_host,
-                        keyspace=v.user, table=v.collection,
+                        keyspace=query.user, table=query.collection,
                        username=self.username, password=self.password
                    )
                else:
                    self.tg = TrustGraph(
                        hosts=self.graph_host,
-                        keyspace=v.user, table=v.collection,
+                        keyspace=query.user, table=query.collection,
                    )
                self.table = table

-            # Sender-produced ID
-            id = msg.properties()["id"]
-
-            print(f"Handling input {id}...", flush=True)
-
            triples = []

-            if v.s is not None:
-                if v.p is not None:
-                    if v.o is not None:
+            if query.s is not None:
+                if query.p is not None:
+                    if query.o is not None:
                        resp = self.tg.get_spo(
-                            v.s.value, v.p.value, v.o.value,
-                            limit=v.limit
+                            query.s.value, query.p.value, query.o.value,
+                            limit=query.limit
                        )
-                        triples.append((v.s.value, v.p.value, v.o.value))
+                        triples.append((query.s.value, query.p.value, query.o.value))
                    else:
                        resp = self.tg.get_sp(
-                            v.s.value, v.p.value,
-                            limit=v.limit
+                            query.s.value, query.p.value,
+                            limit=query.limit
                        )
                        for t in resp:
-                            triples.append((v.s.value, v.p.value, t.o))
+                            triples.append((query.s.value, query.p.value, t.o))
                else:
-                    if v.o is not None:
+                    if query.o is not None:
                        resp = self.tg.get_os(
-                            v.o.value, v.s.value, 
-                            limit=v.limit
+                            query.o.value, query.s.value, 
+                            limit=query.limit
                        )
                        for t in resp:
-                            triples.append((v.s.value, t.p, v.o.value))
+                            triples.append((query.s.value, t.p, query.o.value))
                    else:
                        resp = self.tg.get_s(
-                            v.s.value,
-                            limit=v.limit
+                            query.s.value,
+                            limit=query.limit
                        )
                        for t in resp:
-                            triples.append((v.s.value, t.p, t.o))
+                            triples.append((query.s.value, t.p, t.o))
            else:
-                if v.p is not None:
-                    if v.o is not None:
+                if query.p is not None:
+                    if query.o is not None:
                        resp = self.tg.get_po(
-                            v.p.value, v.o.value,
-                            limit=v.limit
+                            query.p.value, query.o.value,
+                            limit=query.limit
                        )
                        for t in resp:
-                            triples.append((t.s, v.p.value, v.o.value))
+                            triples.append((t.s, query.p.value, query.o.value))
                    else:
                        resp = self.tg.get_p(
-                            v.p.value,
-                            limit=v.limit
+                            query.p.value,
+                            limit=query.limit
                        )
                        for t in resp:
-                            triples.append((t.s, v.p.value, t.o))
+                            triples.append((t.s, query.p.value, t.o))
                else:
-                    if v.o is not None:
+                    if query.o is not None:
                        resp = self.tg.get_o(
-                            v.o.value,
-                            limit=v.limit
+                            query.o.value,
+                            limit=query.limit
                        )
                        for t in resp:
-                            triples.append((t.s, t.p, v.o.value))
+                            triples.append((t.s, t.p, query.o.value))
                    else:
                        resp = self.tg.get_all(
-                            limit=v.limit
+                            limit=query.limit
                        )
                        for t in resp:
                            triples.append((t.s, t.p, t.o))
@ -152,37 +131,17 @@ class Processor(ConsumerProducer):
                for t in triples
            ]

-            print("Send response...", flush=True)
-            r = TriplesQueryResponse(triples=triples, error=None)
-            await self.send(r, properties={"id": id})
-
-            print("Done.", flush=True)
+            return triples

        except Exception as e:

            print(f"Exception: {e}")
-
-            print("Send error response...", flush=True)
-
-            r = TriplesQueryResponse(
-                error=Error(
-                    type = "llm-error",
-                    message = str(e),
-                ),
-                response=None,
-            )
-
-            await self.send(r, properties={"id": id})
-
-            self.consumer.acknowledge(msg)
+            raise e

    @staticmethod
    def add_args(parser):

-        ConsumerProducer.add_args(
-            parser, default_input_queue, default_subscriber,
-            default_output_queue,
-        )
+        TriplesQueryService.add_args(parser)

        parser.add_argument(
            '-g', '--graph-host',
@ -205,5 +164,5 @@ class Processor(ConsumerProducer):

 def run():

-    Processor.launch(module, __doc__)
+    Processor.launch(default_ident, __doc__)

--- a/trustgraph-flow/trustgraph/query/triples/falkordb/service.py
+++ b/trustgraph-flow/trustgraph/query/triples/falkordb/service.py
@ -13,7 +13,7 @@ from .... schema import triples_request_queue
 from .... schema import triples_response_queue
 from .... base import ConsumerProducer

-module = ".".join(__name__.split(".")[1:-1])
+module = "triples-query"

 default_input_queue = triples_request_queue
 default_output_queue = triples_response_queue
--- a/trustgraph-flow/trustgraph/query/triples/memgraph/service.py
+++ b/trustgraph-flow/trustgraph/query/triples/memgraph/service.py
@ -13,7 +13,7 @@ from .... schema import triples_request_queue
 from .... schema import triples_response_queue
 from .... base import ConsumerProducer

-module = ".".join(__name__.split(".")[1:-1])
+module = "triples-query"

 default_input_queue = triples_request_queue
 default_output_queue = triples_response_queue
--- a/trustgraph-flow/trustgraph/query/triples/neo4j/service.py
+++ b/trustgraph-flow/trustgraph/query/triples/neo4j/service.py
@ -13,7 +13,7 @@ from .... schema import triples_request_queue
 from .... schema import triples_response_queue
 from .... base import ConsumerProducer

-module = ".".join(__name__.split(".")[1:-1])
+module = "triples-query"

 default_input_queue = triples_request_queue
 default_output_queue = triples_response_queue