release/v2.3 -> master (#837)

This commit is contained in:
cybermaggedon 2026-04-21 16:30:02 +01:00 committed by GitHub
parent 222537c26b
commit a24df8e990
No known key found for this signature in database
GPG key ID: B5690EEEBB952194
431 changed files with 244 additions and 49 deletions

View file

@ -0,0 +1,355 @@
---
layout: default
title: "निष्कर्षण प्रवाह (निकालने की प्रक्रियाएं)"
parent: "Hindi (Beta)"
---
# निष्कर्षण प्रवाह (निकालने की प्रक्रियाएं)
> **Beta Translation:** This document was translated via Machine Learning and as such may not be 100% accurate. All non-English languages are currently classified as Beta.
यह दस्तावेज़ बताता है कि डेटा ट्रस्टग्राफ निष्कर्षण पाइपलाइन के माध्यम से कैसे प्रवाहित होता है, दस्तावेज़ जमा करने से लेकर ज्ञान भंडारों में भंडारण तक।
## अवलोकन
```
┌──────────┐ ┌─────────────┐ ┌─────────┐ ┌────────────────────┐
│ Librarian│────▶│ PDF Decoder │────▶│ Chunker │────▶│ Knowledge │
│ │ │ (PDF only) │ │ │ │ Extraction │
│ │────────────────────────▶│ │ │ │
└──────────┘ └─────────────┘ └─────────┘ └────────────────────┘
│ │
│ ├──▶ Triples
│ ├──▶ Entity Contexts
│ └──▶ Rows
└──▶ Document Embeddings
```
## सामग्री भंडारण
### ब्लॉब भंडारण (S3/Minio)
दस्तावेज़ सामग्री S3-संगत ब्लॉब भंडारण में संग्रहीत की जाती है:
पथ प्रारूप: `doc/{object_id}` जहाँ object_id एक UUID है
सभी दस्तावेज़ प्रकार यहां संग्रहीत किए जाते हैं: स्रोत दस्तावेज़, पृष्ठ, खंड
### मेटाडेटा भंडारण (कैसेंड्रा)
कैसेंड्रा में संग्रहीत दस्तावेज़ मेटाडेटा में शामिल हैं:
दस्तावेज़ आईडी, शीर्षक, प्रकार (MIME प्रकार)
ब्लॉब भंडारण के लिए `object_id` संदर्भ
चाइल्ड दस्तावेज़ों (पृष्ठों, खंडों) के लिए `parent_id`
`document_type`: "स्रोत", "पृष्ठ", "खंड", "उत्तर"
### इनलाइन बनाम स्ट्रीमिंग थ्रेशोल्ड
सामग्री प्रेषण एक आकार-आधारित रणनीति का उपयोग करता है:
**< 2MB**: मग्र संदेश में इनलइन ि है (base64-एन्कडेड)
**≥ 2MB**: केवल `document_id` भेजा जाता है; प्रोसेसर लाइब्रेरियन API के माध्यम से प्राप्त करता है
## चरण 1: दस्तावेज़ सबमिशन (लाइब्रेरियन)
### प्रवेश बिंदु
दस्तावेज़ लाइब्रेरियन के `add-document` ऑपरेशन के माध्यम से सिस्टम में प्रवेश करते हैं:
1. सामग्री को ब्लॉब भंडारण में अपलोड किया जाता है
2. कैसेंड्रा में मेटाडेटा रिकॉर्ड बनाया जाता है
3. दस्तावेज़ आईडी वापस करता है
### निष्कर्षण को ट्रिगर करना
`add-processing` ऑपरेशन निष्कर्षण को ट्रिगर करता है:
`document_id`, `flow` (पाइपलाइन आईडी), `collection` (लक्ष्य स्टोर) निर्दिष्ट करता है
लाइब्रेरियन का `load_document()` सामग्री प्राप्त करता है और फ्लो इनपुट कतार पर प्रकाशित करता है
### स्कीमा: दस्तावेज़
```
Document
├── metadata: Metadata
│ ├── id: str # Document identifier
│ ├── user: str # Tenant/user ID
│ ├── collection: str # Target collection
│ └── metadata: list[Triple] # (largely unused, historical)
├── data: bytes # PDF content (base64, if inline)
└── document_id: str # Librarian reference (if streaming)
```
**राउटिंग (Routing)**: `kind` फ़ील्ड के आधार पर:
`application/pdf``document-load` क्यू → पीडीएफ डिकोडर
`text/plain``text-load` क्यू → चंकर
## चरण 2: पीडीएफ डिकोडर
पीडीएफ दस्तावेजों को टेक्स्ट पृष्ठों में परिवर्तित करता है।
### प्रक्रिया
1. सामग्री प्राप्त करें (इनलाइन `data` या लाइब्रेरियन से `document_id` के माध्यम से)
2. PyPDF का उपयोग करके पृष्ठों को निकालें
3. प्रत्येक पृष्ठ के लिए:
लाइब्रेरियन में चाइल्ड दस्तावेज़ के रूप में सहेजें (`{doc_id}/p{page_num}`)
प्रामाणिकता ट्रिपल उत्सर्जित करें (पृष्ठ दस्तावेज़ से प्राप्त है)
चंकर को अग्रेषित करें
### स्कीमा: TextDocument
```
TextDocument
├── metadata: Metadata
│ ├── id: str # Page URI (e.g., https://trustgraph.ai/doc/xxx/p1)
│ ├── user: str
│ ├── collection: str
│ └── metadata: list[Triple]
├── text: bytes # Page text content (if inline)
└── document_id: str # Librarian reference (e.g., "doc123/p1")
```
## चरण 3: चंकर (Chunker)
यह टेक्स्ट को कॉन्फ़िगर किए गए आकार में टुकड़ों में विभाजित करता है।
### पैरामीटर (फ्लो-कॉन्फ़िगर करने योग्य)
`chunk_size`: अक्षरों में लक्षित टुकड़ा आकार (डिफ़ॉल्ट: 2000)
`chunk_overlap`: टुकड़ों के बीच ओवरलैप (डिफ़ॉल्ट: 100)
### प्रक्रिया
1. टेक्स्ट सामग्री प्राप्त करें (इनलाइन या लाइब्रेरियन के माध्यम से)
2. रिकर्सिव कैरेक्टर स्प्लिटर का उपयोग करके विभाजित करें
3. प्रत्येक टुकड़े के लिए:
लाइब्रेरियन में चाइल्ड दस्तावेज़ के रूप में सहेजें (`{parent_id}/c{index}`)
प्रामाणिकता ट्रिपल उत्सर्जित करें (टुकड़ा पृष्ठ/दस्तावेज़ से प्राप्त हुआ है)
निष्कर्षण प्रोसेसर को अग्रेषित करें
### स्कीमा: टुकड़ा (Chunk)
```
Chunk
├── metadata: Metadata
│ ├── id: str # Chunk URI
│ ├── user: str
│ ├── collection: str
│ └── metadata: list[Triple]
├── chunk: bytes # Chunk text content
└── document_id: str # Librarian chunk ID (e.g., "doc123/p1/c3")
```
### दस्तावेज़ आईडी पदानुक्रम
चाइल्ड दस्तावेज़ अपनी उत्पत्ति को आईडी में एन्कोड करते हैं:
स्रोत: `doc123`
पृष्ठ: `doc123/p5`
पृष्ठ से अंश: `doc123/p5/c2`
पाठ से अंश: `doc123/c2`
## चरण 4: ज्ञान निष्कर्षण
कई निष्कर्षण पैटर्न उपलब्ध हैं, जिन्हें प्रवाह कॉन्फ़िगरेशन द्वारा चुना जाता है।
### पैटर्न ए: बेसिक ग्राफआरएजी
दो समानांतर प्रोसेसर:
**kg-extract-definitions**
इनपुट: अंश
आउटपुट: ट्रिपल (इकाई परिभाषाएँ), एंटिटीकॉन्टेक्स्ट
निष्कर्षण: इकाई लेबल, परिभाषाएँ
**kg-extract-relationships**
इनपुट: अंश
आउटपुट: ट्रिपल (संबंध), एंटिटीकॉन्टेक्स्ट
निष्कर्षण: विषय-क्रिया-वस्तु संबंध
### पैटर्न बी: ऑन्टोलॉजी-संचालित (kg-extract-ontology)
इनपुट: अंश
आउटपुट: ट्रिपल, एंटिटीकॉन्टेक्स्ट
निष्कर्षण को निर्देशित करने के लिए कॉन्फ़िगर की गई ऑन्टोलॉजी का उपयोग करता है
### पैटर्न सी: एजेंट-आधारित (kg-extract-agent)
इनपुट: अंश
आउटपुट: ट्रिपल, एंटिटीकॉन्टेक्स्ट
निष्कर्षण के लिए एजेंट फ्रेमवर्क का उपयोग करता है
### पैटर्न डी: पंक्ति निष्कर्षण (kg-extract-rows)
इनपुट: अंश
आउटपुट: पंक्तियाँ (संरचित डेटा, ट्रिपल नहीं)
संरचित रिकॉर्ड निकालने के लिए स्कीमा परिभाषा का उपयोग करता है
### स्कीमा: ट्रिपल
```
Triples
├── metadata: Metadata
│ ├── id: str
│ ├── user: str
│ ├── collection: str
│ └── metadata: list[Triple] # (set to [] by extractors)
└── triples: list[Triple]
└── Triple
├── s: Term # Subject
├── p: Term # Predicate
├── o: Term # Object
└── g: str | None # Named graph
```
### स्कीमा: एंटिटीकॉन्टेक्स्ट्स
```
EntityContexts
├── metadata: Metadata
└── entities: list[EntityContext]
└── EntityContext
├── entity: Term # Entity identifier (IRI)
├── context: str # Textual description for embedding
└── chunk_id: str # Source chunk ID (provenance)
```
### स्कीमा: पंक्तियाँ
```
Rows
├── metadata: Metadata
├── row_schema: RowSchema
│ ├── name: str
│ ├── description: str
│ └── fields: list[Field]
└── rows: list[dict[str, str]] # Extracted records
```
## चरण 5: एम्बेडिंग पीढ़ी
### ग्राफ एम्बेडिंग
इकाई संदर्भों को वेक्टर एम्बेडिंग में परिवर्तित करता है।
**प्रक्रिया:**
1. इकाई संदर्भ प्राप्त करें
2. संदर्भ पाठ के साथ एम्बेडिंग सेवा को कॉल करें
3. ग्राफ एम्बेडिंग आउटपुट करें (इकाई → वेक्टर मैपिंग)
**स्कीमा: ग्राफ एम्बेडिंग**
```
GraphEmbeddings
├── metadata: Metadata
└── entities: list[EntityEmbeddings]
└── EntityEmbeddings
├── entity: Term # Entity identifier
├── vector: list[float] # Embedding vector
└── chunk_id: str # Source chunk (provenance)
```
### दस्तावेज़ एम्बेडिंग
यह सीधे टेक्स्ट के टुकड़ों को वेक्टर एम्बेडिंग में परिवर्तित करता है।
**प्रक्रिया:**
1. टेक्स्ट का टुकड़ा प्राप्त करें
2. टेक्स्ट के टुकड़े के साथ एम्बेडिंग सेवा को कॉल करें
3. दस्तावेज़एम्बेडिंग आउटपुट करें
**स्कीमा: दस्तावेज़एम्बेडिंग**
```
DocumentEmbeddings
├── metadata: Metadata
└── chunks: list[ChunkEmbeddings]
└── ChunkEmbeddings
├── chunk_id: str # Chunk identifier
└── vector: list[float] # Embedding vector
```
### पंक्ति एम्बेडिंग (पंक्ति एम्बेडिंग)
पंक्ति अनुक्रमणिका फ़ील्ड को वेक्टर एम्बेडिंग में परिवर्तित करता है।
**प्रक्रिया:**
1. पंक्तियों को प्राप्त करें
2. कॉन्फ़िगर की गई अनुक्रमणिका फ़ील्ड को एम्बेड करें
3. पंक्ति वेक्टर स्टोर पर आउटपुट करें
## चरण 6: भंडारण (चरण 6: भंडारण)
### ट्रिपल स्टोर (ट्रिपल स्टोर)
प्राप्त करता है: ट्रिपल (प्राप्त करता है: ट्रिपल)
भंडारण: कैसेंड्रा (इकाई-केंद्रित तालिकाएँ) (भंडारण: कैसेंड्रा (इकाई-केंद्रित तालिकाएँ))
नामित ग्राफ मूल ज्ञान को उत्पत्ति से अलग करते हैं: (नामित ग्राफ मूल ज्ञान को उत्पत्ति से अलग करते हैं:)
`""` (डिफ़ॉल्ट): मूल ज्ञान तथ्य (डिफ़ॉल्ट: मूल ज्ञान तथ्य)
`urn:graph:source`: निष्कर्षण उत्पत्ति (निष्कर्षण उत्पत्ति)
`urn:graph:retrieval`: क्वेरी-टाइम व्याख्या (क्वेरी-टाइम व्याख्या)
### वेक्टर स्टोर (ग्राफ एम्बेडिंग) (वेक्टर स्टोर (ग्राफ एम्बेडिंग))
प्राप्त करता है: GraphEmbeddings (प्राप्त करता है: GraphEmbeddings)
भंडारण: Qdrant, Milvus, या Pinecone (भंडारण: Qdrant, Milvus, या Pinecone)
अनुक्रमित: इकाई IRI द्वारा (अनुक्रमित: इकाई IRI द्वारा)
मेटाडेटा: उत्पत्ति के लिए chunk_id (मेटाडेटा: उत्पत्ति के लिए chunk_id)
### वेक्टर स्टोर (दस्तावेज़ एम्बेडिंग) (वेक्टर स्टोर (दस्तावेज़ एम्बेडिंग))
प्राप्त करता है: DocumentEmbeddings (प्राप्त करता है: DocumentEmbeddings)
भंडारण: Qdrant, Milvus, या Pinecone (भंडारण: Qdrant, Milvus, या Pinecone)
अनुक्रमित: chunk_id द्वारा (अनुक्रमित: chunk_id द्वारा)
### पंक्ति स्टोर (पंक्ति स्टोर)
प्राप्त करता है: Rows (प्राप्त करता है: Rows)
भंडारण: कैसेंड्रा (भंडारण: कैसेंड्रा)
स्कीमा-संचालित तालिका संरचना (स्कीमा-संचालित तालिका संरचना)
### पंक्ति वेक्टर स्टोर (पंक्ति वेक्टर स्टोर)
प्राप्त होता है: पंक्ति एम्बेडिंग (पंक्ति एम्बेडिंग)
भंडारण: वेक्टर डेटाबेस (वेक्टर डेटाबेस)
अनुक्रमित किया गया: पंक्ति अनुक्रमणिका फ़ील्ड द्वारा (पंक्ति अनुक्रमणिका फ़ील्ड द्वारा)
## मेटाडेटा फ़ील्ड विश्लेषण (मेटाडेटा फ़ील्ड विश्लेषण)
### सक्रिय रूप से उपयोग किए जाने वाले फ़ील्ड (सक्रिय रूप से उपयोग किए जाने वाले फ़ील्ड)
| फ़ील्ड | उपयोग |
|-------|-------|
| `metadata.id` | दस्तावेज़/चंक पहचानकर्ता, लॉगिंग, उत्पत्ति (दस्तावेज़/चंक पहचानकर्ता, लॉगिंग, उत्पत्ति)
| `metadata.user` | मल्टी-टेनेंसी, स्टोरेज रूटिंग (मल्टी-टेनेंसी, स्टोरेज रूटिंग)
| `metadata.collection` | लक्ष्य संग्रह चयन (लक्ष्य संग्रह चयन)
| `document_id` | लाइब्रेरियन संदर्भ, उत्पत्ति लिंकिंग (लाइब्रेरियन संदर्भ, उत्पत्ति लिंकिंग)
| `chunk_id` | पाइपलाइन के माध्यम से उत्पत्ति ट्रैकिंग (पाइपलाइन के माध्यम से उत्पत्ति ट्रैकिंग)
<<<<<<< HEAD
### संभावित रूप से अनावश्यक फ़ील्ड (संभावित रूप से अनावश्यक फ़ील्ड)
| फ़ील्ड | स्थिति |
|-------|--------|
| `metadata.metadata` | सभी एक्सट्रैक्टरों द्वारा `[]` पर सेट; दस्तावेज़-स्तरीय मेटाडेटा अब सबमिशन के समय लाइब्रेरियन द्वारा संभाला जाता है (सभी एक्सट्रैक्टरों द्वारा `[]` पर सेट; दस्तावेज़-स्तरीय मेटाडेटा अब सबमिशन के समय लाइब्रेरियन द्वारा संभाला जाता है)
=======
### हटाए गए फ़ील्ड (हटाए गए फ़ील्ड)
| फ़ील्ड | स्थिति |
|-------|--------|
| `metadata.metadata` | `Metadata` वर्ग से हटा दिया गया। दस्तावेज़-स्तरीय मेटाडेटा ट्रिपल अब सीधे लाइब्रेरियन द्वारा ट्रिपल स्टोर को सबमिशन के समय भेजा जाता है, न कि निष्कर्षण पाइपलाइन के माध्यम से (`Metadata` वर्ग से हटा दिया गया। दस्तावेज़-स्तरीय मेटाडेटा ट्रिपल अब सीधे लाइब्रेरियन द्वारा ट्रिपल स्टोर को सबमिशन के समय भेजा जाता है, न कि निष्कर्षण पाइपलाइन के माध्यम से)
>>>>>>> e3bcbf73 (The metadata field (list of triples) in the pipeline Metadata class)
### बाइट्स फ़ील्ड पैटर्न (बाइट्स फ़ील्ड पैटर्न)
सभी सामग्री फ़ील्ड (`data`, `text`, `chunk`) `bytes` हैं लेकिन सभी प्रोसेसरों द्वारा तुरंत UTF-8 स्ट्रिंग में डिकोड किए जाते हैं। कोई भी प्रोसेसर कच्चे बाइट्स का उपयोग नहीं करता है।
## फ्लो कॉन्फ़िगरेशन (फ्लो कॉन्फ़िगरेशन)
फ्लो बाहरी रूप से परिभाषित किए जाते हैं और कॉन्फ़िगरेशन सेवा के माध्यम से लाइब्रेरियन को प्रदान किए जाते हैं। प्रत्येक फ्लो में निम्नलिखित निर्दिष्ट होता है:
इनपुट क्यू (इनपुट क्यू) (`text-load`, `document-load`)
प्रोसेसर श्रृंखला (प्रोसेसर श्रृंखला)
पैरामीटर (चंक आकार, निष्कर्षण विधि, आदि) (पैरामीटर (चंक आकार, निष्कर्षण विधि, आदि))
फ्लो पैटर्न के उदाहरण: (फ्लो पैटर्न के उदाहरण:)
`pdf-graphrag`: PDF → Decoder → Chunker → Definitions + Relationships → Embeddings
`text-graphrag`: Text → Chunker → Definitions + Relationships → Embeddings
`pdf-ontology`: PDF → Decoder → Chunker → Ontology Extraction → Embeddings
`text-rows`: Text → Chunker → Row Extraction → Row Store