Feat: TrustGraph i18n & Documentation Translation Updates (#781)

Native CLI i18n: The TrustGraph CLI has built-in translation support that dynamically loads language strings. You can test and use different languages by simply passing the --lang flag (e.g., --lang es for Spanish, --lang ru for Russian) or by configuring your environment's LANG variable. Automated Docs Translations: This PR introduces autonomously translated Markdown documentation into several target languages, including Spanish, Swahili, Portuguese, Turkish, Hindi, Hebrew, Arabic, Simplified Chinese, and Russian.
2026-04-26 00:46:22 +02:00 · 2026-04-14 07:07:58 -04:00 · 2026-04-14 07:07:58 -04:00 · f95fd4f052
commit f95fd4f052
parent 19f73e4cdc
560 changed files with 236300 additions and 99 deletions
--- a/docs/tech-specs/extraction-flows.pt.md
+++ b/docs/tech-specs/extraction-flows.pt.md
@ -0,0 +1,355 @@
+---
+layout: default
+title: "Fluxos de Extração"
+parent: "Portuguese (Beta)"
+---
+
+# Fluxos de Extração
+
+> **Beta Translation:** This document was translated via Machine Learning and as such may not be 100% accurate. All non-English languages are currently classified as Beta.
+
+Este documento descreve como os dados fluem através do pipeline de extração do TrustGraph, desde o envio do documento até ao armazenamento nos repositórios de conhecimento.
+
+## Visão Geral
+
+```
+┌──────────┐     ┌─────────────┐     ┌─────────┐     ┌────────────────────┐
+│ Librarian│────▶│ PDF Decoder │────▶│ Chunker │────▶│ Knowledge          │
+│          │     │ (PDF only)  │     │         │     │ Extraction         │
+│          │────────────────────────▶│         │     │                    │
+└──────────┘     └─────────────┘     └─────────┘     └────────────────────┘
+                                          │                    │
+                                          │                    ├──▶ Triples
+                                          │                    ├──▶ Entity Contexts
+                                          │                    └──▶ Rows
+                                          │
+                                          └──▶ Document Embeddings
+```
+
+## Armazenamento de Conteúdo
+
+### Armazenamento de Blobs (S3/Minio)
+
+O conteúdo do documento é armazenado em armazenamento de blobs compatível com S3:
+Formato do caminho: `doc/{object_id}`, onde object_id é um UUID
+Todos os tipos de documentos armazenados aqui: documentos de origem, páginas, trechos
+
+### Armazenamento de Metadados (Cassandra)
+
+Os metadados do documento armazenados no Cassandra incluem:
+ID do documento, título, tipo (MIME)
+Referência ao armazenamento de blobs `object_id`
+Referência `parent_id` para documentos filhos (páginas, trechos)
+`document_type`: "source", "page", "chunk", "answer"
+
+### Limiar de Incorporação vs. Streaming
+
+A transmissão de conteúdo usa uma estratégia baseada no tamanho:
+**< 2MB**: O conteúdo é incluído inline na mensagem (codificado em base64)
+**≥ 2MB**: Apenas `document_id` é enviado; o processador busca via API do bibliotecário
+
+## Etapa 1: Envio de Documento (Bibliotecário)
+
+### Ponto de Entrada
+
+Os documentos entram no sistema através da operação `add-document` do bibliotecário:
+1. O conteúdo é carregado no armazenamento de blobs
+2. Um registro de metadados é criado no Cassandra
+3. Retorna o ID do documento
+
+### Disparando a Extração
+
+A operação `add-processing` dispara a extração:
+Especifica `document_id`, `flow` (ID do pipeline), `collection` (loja de destino)
+A operação `load_document()` do bibliotecário busca o conteúdo e o publica na fila de entrada do fluxo
+
+### Esquema: Documento
+
+```
+Document
+├── metadata: Metadata
+│   ├── id: str              # Document identifier
+│   ├── user: str            # Tenant/user ID
+│   ├── collection: str      # Target collection
+│   └── metadata: list[Triple]  # (largely unused, historical)
+├── data: bytes              # PDF content (base64, if inline)
+└── document_id: str         # Librarian reference (if streaming)
+```
+
+**Roteamento**: Baseado no campo `kind`:
+`application/pdf` → fila `document-load` → Decodificador PDF
+`text/plain` → fila `text-load` → Fragmentador
+
+## Etapa 2: Decodificador PDF
+
+Converte documentos PDF em páginas de texto.
+
+### Processo
+
+1. Buscar conteúdo (inline `data` ou via `document_id` do bibliotecário)
+2. Extrair páginas usando PyPDF
+3. Para cada página:
+   Salvar como documento filho no bibliotecário (`{doc_id}/p{page_num}`)
+   Emitir triplas de procedência (página derivada do documento)
+   Enviar para o fragmentador
+
+### Esquema: TextDocument
+
+```
+TextDocument
+├── metadata: Metadata
+│   ├── id: str              # Page URI (e.g., https://trustgraph.ai/doc/xxx/p1)
+│   ├── user: str
+│   ├── collection: str
+│   └── metadata: list[Triple]
+├── text: bytes              # Page text content (if inline)
+└── document_id: str         # Librarian reference (e.g., "doc123/p1")
+```
+
+## Etapa 3: Divisor em Blocos
+
+Divide o texto em blocos de tamanho configurado.
+
+### Parâmetros (configuráveis no fluxo)
+
+`chunk_size`: Tamanho do bloco alvo em caracteres (padrão: 2000)
+`chunk_overlap`: Sobreposição entre blocos (padrão: 100)
+
+### Processo
+
+1. Buscar o conteúdo do texto (inline ou via bibliotecário)
+2. Dividir usando o divisor de caracteres recursivo
+3. Para cada bloco:
+   Salvar como documento filho no bibliotecário (`{parent_id}/c{index}`)
+   Emitir triplas de procedência (bloco derivado da página/documento)
+   Encaminhar para os processadores de extração
+
+### Esquema: Bloco
+
+```
+Chunk
+├── metadata: Metadata
+│   ├── id: str              # Chunk URI
+│   ├── user: str
+│   ├── collection: str
+│   └── metadata: list[Triple]
+├── chunk: bytes             # Chunk text content
+└── document_id: str         # Librarian chunk ID (e.g., "doc123/p1/c3")
+```
+
+### Hierarquia de Identificação de Documentos
+
+Documentos filhos codificam sua linhagem no ID:
+Fonte: `doc123`
+Página: `doc123/p5`
+Trecho da página: `doc123/p5/c2`
+Trecho de texto: `doc123/c2`
+
+## Etapa 4: Extração de Conhecimento
+
+Múltiplos padrões de extração disponíveis, selecionados pela configuração do fluxo.
+
+### Padrão A: Basic GraphRAG
+
+Dois processadores paralelos:
+
+**kg-extract-definitions**
+Entrada: Trecho
+Saída: Triplas (definições de entidades), Contextos de Entidade
+Extrai: rótulos de entidades, definições
+
+**kg-extract-relationships**
+Entrada: Trecho
+Saída: Triplas (relacionamentos), Contextos de Entidade
+Extrai: relações sujeito-predicado-objeto
+
+### Padrão B: Orientado a Ontologia (kg-extract-ontology)
+
+Entrada: Trecho
+Saída: Triplas, Contextos de Entidade
+Utiliza uma ontologia configurada para guiar a extração
+
+### Padrão C: Baseado em Agente (kg-extract-agent)
+
+Entrada: Trecho
+Saída: Triplas, Contextos de Entidade
+Utiliza um framework de agente para a extração
+
+### Padrão D: Extração de Linhas (kg-extract-rows)
+
+Entrada: Trecho
+Saída: Linhas (dados estruturados, não triplas)
+Utiliza uma definição de esquema para extrair registros estruturados
+
+### Esquema: Triplas
+
+```
+Triples
+├── metadata: Metadata
+│   ├── id: str
+│   ├── user: str
+│   ├── collection: str
+│   └── metadata: list[Triple]  # (set to [] by extractors)
+└── triples: list[Triple]
+    └── Triple
+        ├── s: Term              # Subject
+        ├── p: Term              # Predicate
+        ├── o: Term              # Object
+        └── g: str | None        # Named graph
+```
+
+### Esquema: EntityContexts
+
+```
+EntityContexts
+├── metadata: Metadata
+└── entities: list[EntityContext]
+    └── EntityContext
+        ├── entity: Term         # Entity identifier (IRI)
+        ├── context: str         # Textual description for embedding
+        └── chunk_id: str        # Source chunk ID (provenance)
+```
+
+### Esquema: Linhas
+
+```
+Rows
+├── metadata: Metadata
+├── row_schema: RowSchema
+│   ├── name: str
+│   ├── description: str
+│   └── fields: list[Field]
+└── rows: list[dict[str, str]]   # Extracted records
+```
+
+## Etapa 5: Geração de Embeddings
+
+### Embeddings de Grafos
+
+Converte contextos de entidades em embeddings vetoriais.
+
+**Processo:**
+1. Receber EntityContexts
+2. Chamar o serviço de embeddings com o texto do contexto
+3. Output GraphEmbeddings (mapeamento de entidade para vetor)
+
+**Esquema: GraphEmbeddings**
+
+```
+GraphEmbeddings
+├── metadata: Metadata
+└── entities: list[EntityEmbeddings]
+    └── EntityEmbeddings
+        ├── entity: Term         # Entity identifier
+        ├── vector: list[float]  # Embedding vector
+        └── chunk_id: str        # Source chunk (provenance)
+```
+
+### Incorporações de Documentos
+
+Converte texto em partes diretamente em incorporações vetoriais.
+
+**Processo:**
+1. Receber Parte (Chunk)
+2. Chamar o serviço de incorporação com o texto da parte
+3. Saída: Incorporações de Documento (DocumentEmbeddings)
+
+**Esquema: Incorporações de Documento (DocumentEmbeddings)**
+
+```
+DocumentEmbeddings
+├── metadata: Metadata
+└── chunks: list[ChunkEmbeddings]
+    └── ChunkEmbeddings
+        ├── chunk_id: str        # Chunk identifier
+        └── vector: list[float]  # Embedding vector
+```
+
+### Incorporações de Linhas
+
+Converte campos de índice de linha em incorporações vetoriais.
+
+**Processo:**
+1. Receber Linhas
+2. Incorporar campos de índice configurados
+3. Saída para o armazenamento vetorial de linhas
+
+## Fase 6: Armazenamento
+
+### Armazenamento Triplo
+
+Recebe: Triplas
+Armazenamento: Cassandra (tabelas centradas em entidades)
+Grafos nomeados separam o conhecimento central da procedência:
+  `""` (padrão): Fatos de conhecimento central
+  `urn:graph:source`: Procedência de extração
+  `urn:graph:retrieval`: Explicabilidade em tempo de consulta
+
+### Armazenamento Vetorial (Incorporações de Grafos)
+
+Recebe: Incorporações de Grafos
+Armazenamento: Qdrant, Milvus ou Pinecone
+Indexado por: IRI da entidade
+Metadados: chunk_id para procedência
+
+### Armazenamento Vetorial (Incorporações de Documentos)
+
+Recebe: Incorporações de Documentos
+Armazenamento: Qdrant, Milvus ou Pinecone
+Indexado por: chunk_id
+
+### Armazenamento de Linhas
+
+Recebe: Linhas
+Armazenamento: Cassandra
+Estrutura de tabela orientada por esquema
+
+### Armazenamento Vetorial de Linhas
+
+Recebe: Incorporações de linhas
+Armazenamento: Banco de dados vetorial
+Indexado por: campos de índice de linha
+
+## Análise de Campos de Metadados
+
+### Campos Ativamente Utilizados
+
+| Campo | Uso |
+|-------|-------|
+| `metadata.id` | Identificador de documento/fragmento, registro, procedência |
+| `metadata.user` | Multilocação, roteamento de armazenamento |
+| `metadata.collection` | Seleção de coleção de destino |
+| `document_id` | Referência do bibliotecário, vinculação de procedência |
+| `chunk_id` | Rastreamento de procedência através do pipeline |
+
+<<<<<<< HEAD
+### Campos Potencialmente Redundantes
+
+| Campo | Status |
+|-------|--------|
+| `metadata.metadata` | Definido como `[]` por todos os extratores; metadados de nível de documento agora gerenciados pelo bibliotecário no momento do envio |
+=======
+### Campos Removidos
+
+| Campo | Status |
+|-------|--------|
+| `metadata.metadata` | Removido da classe `Metadata`. Triplas de metadados de nível de documento agora são emitidas diretamente pelo bibliotecário para o armazenamento de triplas no momento do envio, e não são transmitidas através do pipeline de extração. |
+>>>>>>> e3bcbf73 (The metadata field (list of triples) in the pipeline Metadata class)
+
+### Padrão de Campos de Bytes
+
+Todos os campos de conteúdo (`data`, `text`, `chunk`) são `bytes`, mas são imediatamente decodificados para strings UTF-8 por todos os processadores. Nenhum processador usa bytes brutos.
+
+## Configuração do Fluxo
+
+Os fluxos são definidos externamente e fornecidos ao bibliotecário através do serviço de configuração. Cada fluxo especifica:
+
+Filas de entrada (`text-load`, `document-load`)
+Cadeia de processadores
+Parâmetros (tamanho do fragmento, método de extração, etc.)
+
+Padrões de fluxo de exemplo:
+`pdf-graphrag`: PDF → Decodificador → Fragmentador → Definições + Relacionamentos → Incorporações
+`text-graphrag`: Texto → Fragmentador → Definições + Relacionamentos → Incorporações
+`pdf-ontology`: PDF → Decodificador → Fragmentador → Extração de Ontologia → Incorporações
+`text-rows`: Texto → Fragmentador → Extração de Linhas → Armazenamento de Linhas