trustgraph/docs/tech-specs/hi/extraction-flows.hi.md

---
layout: default
title: "निष्कर्षण प्रवाह (निकालने की प्रक्रियाएं)"
parent: "Hindi (Beta)"
---

# निष्कर्षण प्रवाह (निकालने की प्रक्रियाएं)

> **Beta Translation:** This document was translated via Machine Learning and as such may not be 100% accurate. All non-English languages are currently classified as Beta.

यह दस्तावेज़ बताता है कि डेटा ट्रस्टग्राफ निष्कर्षण पाइपलाइन के माध्यम से कैसे प्रवाहित होता है, दस्तावेज़ जमा करने से लेकर ज्ञान भंडारों में भंडारण तक।

## अवलोकन

```
┌──────────┐     ┌─────────────┐     ┌─────────┐     ┌────────────────────┐
│ Librarian│────▶│ PDF Decoder │────▶│ Chunker │────▶│ Knowledge          │
│          │     │ (PDF only)  │     │         │     │ Extraction         │
│          │────────────────────────▶│         │     │                    │
└──────────┘     └─────────────┘     └─────────┘     └────────────────────┘
                                          │                    │
                                          │                    ├──▶ Triples
                                          │                    ├──▶ Entity Contexts
                                          │                    └──▶ Rows
                                          │
                                          └──▶ Document Embeddings
```

## सामग्री भंडारण

### ब्लॉब भंडारण (S3/Minio)

दस्तावेज़ सामग्री S3-संगत ब्लॉब भंडारण में संग्रहीत की जाती है:
पथ प्रारूप: `doc/{object_id}` जहाँ object_id एक UUID है
सभी दस्तावेज़ प्रकार यहां संग्रहीत किए जाते हैं: स्रोत दस्तावेज़, पृष्ठ, खंड

### मेटाडेटा भंडारण (कैसेंड्रा)

कैसेंड्रा में संग्रहीत दस्तावेज़ मेटाडेटा में शामिल हैं:
दस्तावेज़ आईडी, शीर्षक, प्रकार (MIME प्रकार)
ब्लॉब भंडारण के लिए `object_id` संदर्भ
चाइल्ड दस्तावेज़ों (पृष्ठों, खंडों) के लिए `parent_id`
`document_type`: "स्रोत", "पृष्ठ", "खंड", "उत्तर"

### इनलाइन बनाम स्ट्रीमिंग थ्रेशोल्ड

सामग्री प्रेषण एक आकार-आधारित रणनीति का उपयोग करता है:
**< 2MB**: सामग्री संदेश में इनलाइन शामिल है (base64-एन्कोडेड)
**≥ 2MB**: केवल `document_id` भेजा जाता है; प्रोसेसर लाइब्रेरियन API के माध्यम से प्राप्त करता है

## चरण 1: दस्तावेज़ सबमिशन (लाइब्रेरियन)

### प्रवेश बिंदु

दस्तावेज़ लाइब्रेरियन के `add-document` ऑपरेशन के माध्यम से सिस्टम में प्रवेश करते हैं:
1. सामग्री को ब्लॉब भंडारण में अपलोड किया जाता है
2. कैसेंड्रा में मेटाडेटा रिकॉर्ड बनाया जाता है
3. दस्तावेज़ आईडी वापस करता है

### निष्कर्षण को ट्रिगर करना

`add-processing` ऑपरेशन निष्कर्षण को ट्रिगर करता है:
`document_id`, `flow` (पाइपलाइन आईडी), `collection` (लक्ष्य स्टोर) निर्दिष्ट करता है
लाइब्रेरियन का `load_document()` सामग्री प्राप्त करता है और फ्लो इनपुट कतार पर प्रकाशित करता है

### स्कीमा: दस्तावेज़

```
Document
├── metadata: Metadata
│   ├── id: str              # Document identifier
│   ├── user: str            # Tenant/user ID
│   ├── collection: str      # Target collection
│   └── metadata: list[Triple]  # (largely unused, historical)
├── data: bytes              # PDF content (base64, if inline)
└── document_id: str         # Librarian reference (if streaming)
```

**राउटिंग (Routing)**: `kind` फ़ील्ड के आधार पर:
`application/pdf` → `document-load` क्यू → पीडीएफ डिकोडर
`text/plain` → `text-load` क्यू → चंकर

## चरण 2: पीडीएफ डिकोडर

पीडीएफ दस्तावेजों को टेक्स्ट पृष्ठों में परिवर्तित करता है।

### प्रक्रिया

1. सामग्री प्राप्त करें (इनलाइन `data` या लाइब्रेरियन से `document_id` के माध्यम से)
2. PyPDF का उपयोग करके पृष्ठों को निकालें
3. प्रत्येक पृष्ठ के लिए:
   लाइब्रेरियन में चाइल्ड दस्तावेज़ के रूप में सहेजें (`{doc_id}/p{page_num}`)
   प्रामाणिकता ट्रिपल उत्सर्जित करें (पृष्ठ दस्तावेज़ से प्राप्त है)
   चंकर को अग्रेषित करें

### स्कीमा: TextDocument

```
TextDocument
├── metadata: Metadata
│   ├── id: str              # Page URI (e.g., https://trustgraph.ai/doc/xxx/p1)
│   ├── user: str
│   ├── collection: str
│   └── metadata: list[Triple]
├── text: bytes              # Page text content (if inline)
└── document_id: str         # Librarian reference (e.g., "doc123/p1")
```

## चरण 3: चंकर (Chunker)

यह टेक्स्ट को कॉन्फ़िगर किए गए आकार में टुकड़ों में विभाजित करता है।

### पैरामीटर (फ्लो-कॉन्फ़िगर करने योग्य)

`chunk_size`: अक्षरों में लक्षित टुकड़ा आकार (डिफ़ॉल्ट: 2000)
`chunk_overlap`: टुकड़ों के बीच ओवरलैप (डिफ़ॉल्ट: 100)

### प्रक्रिया

1. टेक्स्ट सामग्री प्राप्त करें (इनलाइन या लाइब्रेरियन के माध्यम से)
2. रिकर्सिव कैरेक्टर स्प्लिटर का उपयोग करके विभाजित करें
3. प्रत्येक टुकड़े के लिए:
   लाइब्रेरियन में चाइल्ड दस्तावेज़ के रूप में सहेजें (`{parent_id}/c{index}`)
   प्रामाणिकता ट्रिपल उत्सर्जित करें (टुकड़ा पृष्ठ/दस्तावेज़ से प्राप्त हुआ है)
   निष्कर्षण प्रोसेसर को अग्रेषित करें

### स्कीमा: टुकड़ा (Chunk)

```
Chunk
├── metadata: Metadata
│   ├── id: str              # Chunk URI
│   ├── user: str
│   ├── collection: str
│   └── metadata: list[Triple]
├── chunk: bytes             # Chunk text content
└── document_id: str         # Librarian chunk ID (e.g., "doc123/p1/c3")
```

### दस्तावेज़ आईडी पदानुक्रम

चाइल्ड दस्तावेज़ अपनी उत्पत्ति को आईडी में एन्कोड करते हैं:
स्रोत: `doc123`
पृष्ठ: `doc123/p5`
पृष्ठ से अंश: `doc123/p5/c2`
पाठ से अंश: `doc123/c2`

## चरण 4: ज्ञान निष्कर्षण

कई निष्कर्षण पैटर्न उपलब्ध हैं, जिन्हें प्रवाह कॉन्फ़िगरेशन द्वारा चुना जाता है।

### पैटर्न ए: बेसिक ग्राफआरएजी

दो समानांतर प्रोसेसर:

**kg-extract-definitions**
इनपुट: अंश
आउटपुट: ट्रिपल (इकाई परिभाषाएँ), एंटिटीकॉन्टेक्स्ट
निष्कर्षण: इकाई लेबल, परिभाषाएँ

**kg-extract-relationships**
इनपुट: अंश
आउटपुट: ट्रिपल (संबंध), एंटिटीकॉन्टेक्स्ट
निष्कर्षण: विषय-क्रिया-वस्तु संबंध

### पैटर्न बी: ऑन्टोलॉजी-संचालित (kg-extract-ontology)

इनपुट: अंश
आउटपुट: ट्रिपल, एंटिटीकॉन्टेक्स्ट
निष्कर्षण को निर्देशित करने के लिए कॉन्फ़िगर की गई ऑन्टोलॉजी का उपयोग करता है

### पैटर्न सी: एजेंट-आधारित (kg-extract-agent)

इनपुट: अंश
आउटपुट: ट्रिपल, एंटिटीकॉन्टेक्स्ट
निष्कर्षण के लिए एजेंट फ्रेमवर्क का उपयोग करता है

### पैटर्न डी: पंक्ति निष्कर्षण (kg-extract-rows)

इनपुट: अंश
आउटपुट: पंक्तियाँ (संरचित डेटा, ट्रिपल नहीं)
संरचित रिकॉर्ड निकालने के लिए स्कीमा परिभाषा का उपयोग करता है

### स्कीमा: ट्रिपल

```
Triples
├── metadata: Metadata
│   ├── id: str
│   ├── user: str
│   ├── collection: str
│   └── metadata: list[Triple]  # (set to [] by extractors)
└── triples: list[Triple]
    └── Triple
        ├── s: Term              # Subject
        ├── p: Term              # Predicate
        ├── o: Term              # Object
        └── g: str | None        # Named graph
```

### स्कीमा: एंटिटीकॉन्टेक्स्ट्स

```
EntityContexts
├── metadata: Metadata
└── entities: list[EntityContext]
    └── EntityContext
        ├── entity: Term         # Entity identifier (IRI)
        ├── context: str         # Textual description for embedding
        └── chunk_id: str        # Source chunk ID (provenance)
```

### स्कीमा: पंक्तियाँ

```
Rows
├── metadata: Metadata
├── row_schema: RowSchema
│   ├── name: str
│   ├── description: str
│   └── fields: list[Field]
└── rows: list[dict[str, str]]   # Extracted records
```

## चरण 5: एम्बेडिंग पीढ़ी

### ग्राफ एम्बेडिंग

इकाई संदर्भों को वेक्टर एम्बेडिंग में परिवर्तित करता है।

**प्रक्रिया:**
1. इकाई संदर्भ प्राप्त करें
2. संदर्भ पाठ के साथ एम्बेडिंग सेवा को कॉल करें
3. ग्राफ एम्बेडिंग आउटपुट करें (इकाई → वेक्टर मैपिंग)

**स्कीमा: ग्राफ एम्बेडिंग**

```
GraphEmbeddings
├── metadata: Metadata
└── entities: list[EntityEmbeddings]
    └── EntityEmbeddings
        ├── entity: Term         # Entity identifier
        ├── vector: list[float]  # Embedding vector
        └── chunk_id: str        # Source chunk (provenance)
```

### दस्तावेज़ एम्बेडिंग

यह सीधे टेक्स्ट के टुकड़ों को वेक्टर एम्बेडिंग में परिवर्तित करता है।

**प्रक्रिया:**
1. टेक्स्ट का टुकड़ा प्राप्त करें
2. टेक्स्ट के टुकड़े के साथ एम्बेडिंग सेवा को कॉल करें
3. दस्तावेज़एम्बेडिंग आउटपुट करें

**स्कीमा: दस्तावेज़एम्बेडिंग**

```
DocumentEmbeddings
├── metadata: Metadata
└── chunks: list[ChunkEmbeddings]
    └── ChunkEmbeddings
        ├── chunk_id: str        # Chunk identifier
        └── vector: list[float]  # Embedding vector
```

### पंक्ति एम्बेडिंग (पंक्ति एम्बेडिंग)

पंक्ति अनुक्रमणिका फ़ील्ड को वेक्टर एम्बेडिंग में परिवर्तित करता है।

**प्रक्रिया:**
1. पंक्तियों को प्राप्त करें
2. कॉन्फ़िगर की गई अनुक्रमणिका फ़ील्ड को एम्बेड करें
3. पंक्ति वेक्टर स्टोर पर आउटपुट करें

## चरण 6: भंडारण (चरण 6: भंडारण)

### ट्रिपल स्टोर (ट्रिपल स्टोर)

प्राप्त करता है: ट्रिपल (प्राप्त करता है: ट्रिपल)
भंडारण: कैसेंड्रा (इकाई-केंद्रित तालिकाएँ) (भंडारण: कैसेंड्रा (इकाई-केंद्रित तालिकाएँ))
नामित ग्राफ मूल ज्ञान को उत्पत्ति से अलग करते हैं: (नामित ग्राफ मूल ज्ञान को उत्पत्ति से अलग करते हैं:)
  `""` (डिफ़ॉल्ट): मूल ज्ञान तथ्य (डिफ़ॉल्ट: मूल ज्ञान तथ्य)
  `urn:graph:source`: निष्कर्षण उत्पत्ति (निष्कर्षण उत्पत्ति)
  `urn:graph:retrieval`: क्वेरी-टाइम व्याख्या (क्वेरी-टाइम व्याख्या)

### वेक्टर स्टोर (ग्राफ एम्बेडिंग) (वेक्टर स्टोर (ग्राफ एम्बेडिंग))

प्राप्त करता है: GraphEmbeddings (प्राप्त करता है: GraphEmbeddings)
भंडारण: Qdrant, Milvus, या Pinecone (भंडारण: Qdrant, Milvus, या Pinecone)
अनुक्रमित: इकाई IRI द्वारा (अनुक्रमित: इकाई IRI द्वारा)
मेटाडेटा: उत्पत्ति के लिए chunk_id (मेटाडेटा: उत्पत्ति के लिए chunk_id)

### वेक्टर स्टोर (दस्तावेज़ एम्बेडिंग) (वेक्टर स्टोर (दस्तावेज़ एम्बेडिंग))

प्राप्त करता है: DocumentEmbeddings (प्राप्त करता है: DocumentEmbeddings)
भंडारण: Qdrant, Milvus, या Pinecone (भंडारण: Qdrant, Milvus, या Pinecone)
अनुक्रमित: chunk_id द्वारा (अनुक्रमित: chunk_id द्वारा)

### पंक्ति स्टोर (पंक्ति स्टोर)

प्राप्त करता है: Rows (प्राप्त करता है: Rows)
भंडारण: कैसेंड्रा (भंडारण: कैसेंड्रा)
स्कीमा-संचालित तालिका संरचना (स्कीमा-संचालित तालिका संरचना)

### पंक्ति वेक्टर स्टोर (पंक्ति वेक्टर स्टोर)

प्राप्त होता है: पंक्ति एम्बेडिंग (पंक्ति एम्बेडिंग)
भंडारण: वेक्टर डेटाबेस (वेक्टर डेटाबेस)
अनुक्रमित किया गया: पंक्ति अनुक्रमणिका फ़ील्ड द्वारा (पंक्ति अनुक्रमणिका फ़ील्ड द्वारा)

## मेटाडेटा फ़ील्ड विश्लेषण (मेटाडेटा फ़ील्ड विश्लेषण)

### सक्रिय रूप से उपयोग किए जाने वाले फ़ील्ड (सक्रिय रूप से उपयोग किए जाने वाले फ़ील्ड)

| फ़ील्ड | उपयोग |
|-------|-------|
| `metadata.id` | दस्तावेज़/चंक पहचानकर्ता, लॉगिंग, उत्पत्ति (दस्तावेज़/चंक पहचानकर्ता, लॉगिंग, उत्पत्ति)
| `metadata.user` | मल्टी-टेनेंसी, स्टोरेज रूटिंग (मल्टी-टेनेंसी, स्टोरेज रूटिंग)
| `metadata.collection` | लक्ष्य संग्रह चयन (लक्ष्य संग्रह चयन)
| `document_id` | लाइब्रेरियन संदर्भ, उत्पत्ति लिंकिंग (लाइब्रेरियन संदर्भ, उत्पत्ति लिंकिंग)
| `chunk_id` | पाइपलाइन के माध्यम से उत्पत्ति ट्रैकिंग (पाइपलाइन के माध्यम से उत्पत्ति ट्रैकिंग)

<<<<<<< HEAD
### संभावित रूप से अनावश्यक फ़ील्ड (संभावित रूप से अनावश्यक फ़ील्ड)

| फ़ील्ड | स्थिति |
|-------|--------|
| `metadata.metadata` | सभी एक्सट्रैक्टरों द्वारा `[]` पर सेट; दस्तावेज़-स्तरीय मेटाडेटा अब सबमिशन के समय लाइब्रेरियन द्वारा संभाला जाता है (सभी एक्सट्रैक्टरों द्वारा `[]` पर सेट; दस्तावेज़-स्तरीय मेटाडेटा अब सबमिशन के समय लाइब्रेरियन द्वारा संभाला जाता है)
=======
### हटाए गए फ़ील्ड (हटाए गए फ़ील्ड)

| फ़ील्ड | स्थिति |
|-------|--------|
| `metadata.metadata` | `Metadata` वर्ग से हटा दिया गया। दस्तावेज़-स्तरीय मेटाडेटा ट्रिपल अब सीधे लाइब्रेरियन द्वारा ट्रिपल स्टोर को सबमिशन के समय भेजा जाता है, न कि निष्कर्षण पाइपलाइन के माध्यम से (`Metadata` वर्ग से हटा दिया गया। दस्तावेज़-स्तरीय मेटाडेटा ट्रिपल अब सीधे लाइब्रेरियन द्वारा ट्रिपल स्टोर को सबमिशन के समय भेजा जाता है, न कि निष्कर्षण पाइपलाइन के माध्यम से)
>>>>>>> e3bcbf73 (The metadata field (list of triples) in the pipeline Metadata class)

### बाइट्स फ़ील्ड पैटर्न (बाइट्स फ़ील्ड पैटर्न)

सभी सामग्री फ़ील्ड (`data`, `text`, `chunk`) `bytes` हैं लेकिन सभी प्रोसेसरों द्वारा तुरंत UTF-8 स्ट्रिंग में डिकोड किए जाते हैं। कोई भी प्रोसेसर कच्चे बाइट्स का उपयोग नहीं करता है।

## फ्लो कॉन्फ़िगरेशन (फ्लो कॉन्फ़िगरेशन)

फ्लो बाहरी रूप से परिभाषित किए जाते हैं और कॉन्फ़िगरेशन सेवा के माध्यम से लाइब्रेरियन को प्रदान किए जाते हैं। प्रत्येक फ्लो में निम्नलिखित निर्दिष्ट होता है:

इनपुट क्यू (इनपुट क्यू) (`text-load`, `document-load`)
प्रोसेसर श्रृंखला (प्रोसेसर श्रृंखला)
पैरामीटर (चंक आकार, निष्कर्षण विधि, आदि) (पैरामीटर (चंक आकार, निष्कर्षण विधि, आदि))

फ्लो पैटर्न के उदाहरण: (फ्लो पैटर्न के उदाहरण:)
`pdf-graphrag`: PDF → Decoder → Chunker → Definitions + Relationships → Embeddings
`text-graphrag`: Text → Chunker → Definitions + Relationships → Embeddings
`pdf-ontology`: PDF → Decoder → Chunker → Ontology Extraction → Embeddings
`text-rows`: Text → Chunker → Row Extraction → Row Store