mirror of
https://github.com/trustgraph-ai/trustgraph.git
synced 2026-04-25 08:26:21 +02:00
405 lines
38 KiB
Markdown
405 lines
38 KiB
Markdown
|
|
---
|
||
|
|
layout: default
|
||
|
|
title: "यूनिवर्सल डॉक्यूमेंट डिकोडर"
|
||
|
|
parent: "Hindi (Beta)"
|
||
|
|
---
|
||
|
|
|
||
|
|
# यूनिवर्सल डॉक्यूमेंट डिकोडर
|
||
|
|
|
||
|
|
> **Beta Translation:** This document was translated via Machine Learning and as such may not be 100% accurate. All non-English languages are currently classified as Beta.
|
||
|
|
|
||
|
|
## शीर्षक
|
||
|
|
|
||
|
|
यूनिवर्सल डॉक्यूमेंट डिकोडर जो `unstructured` द्वारा संचालित है — किसी भी सामान्य
|
||
|
|
डॉक्यूमेंट फॉर्मेट को एक ही सेवा के माध्यम से संसाधित करें, जिसमें पूर्ण उत्पत्ति और लाइब्रेरियन
|
||
|
|
एकीकरण शामिल है, जो स्रोत स्थितियों को ज्ञान ग्राफ मेटाडेटा के रूप में रिकॉर्ड करता है ताकि
|
||
|
|
एंड-टू-एंड पता लगाया जा सके।
|
||
|
|
|
||
|
|
## समस्या
|
||
|
|
|
||
|
|
वर्तमान में ट्रस्टग्राफ में एक पीडीएफ-विशिष्ट डिकोडर है। अतिरिक्त
|
||
|
|
फॉर्मेट (DOCX, XLSX, HTML, Markdown, प्लेन टेक्स्ट, PPTX, आदि) का समर्थन करने के लिए
|
||
|
|
या तो प्रत्येक फॉर्मेट के लिए एक नया डिकोडर लिखना होगा या एक सार्वभौमिक निष्कर्षण
|
||
|
|
लाइब्रेरी को अपनाना होगा। प्रत्येक फॉर्मेट की संरचना अलग होती है — कुछ पृष्ठ-आधारित होते हैं, कुछ
|
||
|
|
नहीं होते हैं — और निष्कर्षित पाठ के प्रत्येक टुकड़े की उत्पत्ति मूल
|
||
|
|
डॉक्यूमेंट में कहां से हुई, इसे उत्पत्ति श्रृंखला में रिकॉर्ड किया जाना चाहिए।
|
||
|
|
|
||
|
|
## दृष्टिकोण
|
||
|
|
|
||
|
|
### लाइब्रेरी: `unstructured`
|
||
|
|
|
||
|
|
`unstructured.partition.auto.partition()` का उपयोग करें जो फॉर्मेट को स्वचालित रूप से पहचानता है
|
||
|
|
mime टाइप या फ़ाइल एक्सटेंशन से और संरचित तत्वों को निकालता है
|
||
|
|
(शीर्षक, वर्णनात्मक पाठ, तालिका, सूची आइटम, आदि)। प्रत्येक तत्व में
|
||
|
|
मेटाडेटा शामिल है:
|
||
|
|
|
||
|
|
`page_number` (पीडीएफ, पीपीटीएक्स जैसे पृष्ठ-आधारित फॉर्मेट के लिए)
|
||
|
|
`element_id` (प्रत्येक तत्व के लिए अद्वितीय)
|
||
|
|
`coordinates` (पीडीएफ के लिए बाउंडिंग बॉक्स)
|
||
|
|
`text` (निष्कर्षित पाठ सामग्री)
|
||
|
|
`category` (तत्व प्रकार: शीर्षक, वर्णनात्मक पाठ, तालिका, आदि)
|
||
|
|
|
||
|
|
### तत्व प्रकार
|
||
|
|
|
||
|
|
`unstructured` डॉक्यूमेंट से टाइप किए गए तत्वों को निकालता है। प्रत्येक तत्व में
|
||
|
|
एक श्रेणी और संबंधित मेटाडेटा होता है:
|
||
|
|
|
||
|
|
**पाठ तत्व:**
|
||
|
|
`Title` — अनुभाग शीर्षक
|
||
|
|
`NarrativeText` — पैराग्राफ
|
||
|
|
`ListItem` — बुलेट/क्रमांकित सूची आइटम
|
||
|
|
`Header`, `Footer` — पृष्ठ हेडर/फुटर
|
||
|
|
`FigureCaption` — चित्रों/छवियों के लिए कैप्शन
|
||
|
|
`Formula` — गणितीय व्यंजक
|
||
|
|
`Address`, `EmailAddress` — संपर्क जानकारी
|
||
|
|
`CodeSnippet` — कोड ब्लॉक (मार्कडाउन से)
|
||
|
|
|
||
|
|
**तालिकाएँ:**
|
||
|
|
`Table` — संरचित सारणीबद्ध डेटा। `unstructured` दोनों प्रदान करता है
|
||
|
|
`element.text` (सादा पाठ) और `element.metadata.text_as_html`
|
||
|
|
(पंक्तियों, स्तंभों और शीर्षकों को संरक्षित करते हुए पूर्ण HTML `<table>`)।
|
||
|
|
DOCX, XLSX, HTML जैसे स्पष्ट तालिका संरचना वाले फॉर्मेट के लिए,
|
||
|
|
निष्कर्षण अत्यधिक विश्वसनीय है। पीडीएफ के लिए, तालिका का पता लगाना
|
||
|
|
लेआउट विश्लेषण के साथ `hi_res` रणनीति पर निर्भर करता है।
|
||
|
|
|
||
|
|
**छवियाँ:**
|
||
|
|
`Image` — लेआउट विश्लेषण के माध्यम से पता लगाई गई एम्बेडेड छवियां (आवश्यक
|
||
|
|
`hi_res` रणनीति)। `extract_image_block_to_payload=True` के साथ,
|
||
|
|
छवि डेटा को `element.metadata.image_base64` में base64 के रूप में लौटाता है।
|
||
|
|
छवि से OCR पाठ `element.text` में उपलब्ध है।
|
||
|
|
|
||
|
|
### तालिका हैंडलिंग
|
||
|
|
|
||
|
|
तालिकाओं को एक प्राथमिक आउटपुट माना जाता है। जब डिकोडर एक `Table`
|
||
|
|
तत्व का सामना करता है, तो यह सादे पाठ में समतल करने के बजाय HTML संरचना को संरक्षित करता है।
|
||
|
|
यह डाउनस्ट्रीम एलएलएम निष्कर्षण को सारणीबद्ध डेटा से संरचित ज्ञान निकालने के लिए
|
||
|
|
बहुत बेहतर इनपुट देता है।
|
||
|
|
|
||
|
|
पृष्ठ/अनुभाग पाठ को इस प्रकार जोड़ा जाता है:
|
||
|
|
पाठ तत्व: सादा पाठ, नई पंक्तियों के साथ जोड़ा गया
|
||
|
|
तालिका तत्व: `text_as_html` से HTML तालिका मार्कअप, एक
|
||
|
|
`<table>` मार्कर में लपेटा गया ताकि एलएलएम तालिकाओं को वर्णनात्मक
|
||
|
|
पाठ से अलग कर सके।
|
||
|
|
उदाहरण के लिए, एक शीर्षक, पैराग्राफ और तालिका वाला पृष्ठ इस प्रकार होगा:
|
||
|
|
|
||
|
|
```
|
||
|
|
Financial Overview
|
||
|
|
|
||
|
|
Revenue grew 15% year-over-year driven by enterprise adoption.
|
||
|
|
|
||
|
|
<table>
|
||
|
|
<tr><th>Quarter</th><th>Revenue</th><th>Growth</th></tr>
|
||
|
|
<tr><td>Q1</td><td>$12M</td><td>12%</td></tr>
|
||
|
|
<tr><td>Q2</td><td>$14M</td><td>17%</td></tr>
|
||
|
|
</table>
|
||
|
|
```
|
||
|
|
|
||
|
|
यह चंकिंग के माध्यम से तालिका संरचना को संरक्षित करता है और निष्कर्षण
|
||
|
|
पाइपलाइन में, जहां एलएलएम सीधे संरचित कोशिकाओं से संबंधों को निकाल सकता है,
|
||
|
|
कॉलम संरेखण का अनुमान लगाने के बजाय खाली स्थान से।
|
||
|
|
|
||
|
|
|
||
|
|
### छवि प्रबंधन
|
||
|
|
|
||
|
|
छवियों को लाइब्रेरियन में चाइल्ड दस्तावेज़ों के रूप में निकाला और संग्रहीत किया जाता है
|
||
|
|
`document_type="image"` और एक `urn:image:{uuid}` आईडी के साथ। उन्हें
|
||
|
|
प्रकार `tg:Image` के साथ प्रामाणिकता ट्रिपल मिलते हैं, जो उनके मूल
|
||
|
|
पृष्ठ/अनुभाग से `prov:wasDerivedFrom` के माध्यम से जुड़े होते हैं। छवि मेटाडेटा (निर्देशांक,
|
||
|
|
आयाम, तत्व_आईडी) को प्रामाणिकता में दर्ज किया जाता है।
|
||
|
|
|
||
|
|
**महत्वपूर्ण रूप से, छवियों को टेक्स्टडॉक्यूमेंट आउटपुट के रूप में उत्सर्जित नहीं किया जाता है।** वे
|
||
|
|
केवल संग्रहीत होते हैं - चंकर या किसी भी टेक्स्ट प्रोसेसिंग
|
||
|
|
पाइपलाइन में नीचे की ओर नहीं भेजे जाते हैं। यह जानबूझकर है:
|
||
|
|
|
||
|
|
1. अभी तक कोई छवि प्रसंस्करण पाइपलाइन नहीं है (विज़न मॉडल एकीकरण
|
||
|
|
भविष्य का कार्य है)
|
||
|
|
2. आधार64 छवि डेटा या ओसीआर टुकड़ों को टेक्स्ट निष्कर्षण
|
||
|
|
पाइपलाइन में फीड करने से कचरा केजी ट्रिपल उत्पन्न होंगे
|
||
|
|
|
||
|
|
छवियों को असेंबल किए गए पृष्ठ टेक्स्ट से भी बाहर रखा गया है - कोई भी `Image`
|
||
|
|
तत्व एक पृष्ठ/अनुभाग के लिए तत्व टेक्स्ट को संयोजित करते समय चुपचाप छोड़ दिए जाते हैं। प्रामाणिकता श्रृंखला में दर्ज किया गया है कि छवियां मौजूद हैं और वे दस्तावेज़ में कहां दिखाई दीं, ताकि उन्हें भविष्य के
|
||
|
|
पृष्ठ/अनुभाग। उत्पत्ति श्रृंखला में दर्ज है कि चित्र मौजूद हैं और वे कहाँ स्थित हैं।
|
||
|
|
छवि प्रसंस्करण पाइपलाइन द्वारा दस्तावेज़ को फिर से संसाधित किए बिना प्राप्त किया जा सके।
|
||
|
|
|
||
|
|
|
||
|
|
#### भविष्य का कार्य
|
||
|
|
|
||
|
|
`tg:Image` संस्थाओं को विवरण,
|
||
|
|
आरेख व्याख्या या चार्ट डेटा निष्कर्षण के लिए एक विज़न मॉडल में रूट करें
|
||
|
|
छवि विवरण को टेक्स्ट चाइल्ड दस्तावेज़ों के रूप में संग्रहीत करें जो
|
||
|
|
मानक चंकिंग/निष्कर्षण पाइपलाइन में फीड करते हैं
|
||
|
|
निकाले गए ज्ञान को प्रामाणिकता के माध्यम से स्रोत छवियों से लिंक करें
|
||
|
|
|
||
|
|
### अनुभाग रणनीतियाँ
|
||
|
|
|
||
|
|
पृष्ठ-आधारित प्रारूपों (पीडीएफ, पीपीटीएक्स, एक्सएलएसएक्स) के लिए, तत्वों को हमेशा
|
||
|
|
पहले पृष्ठ/स्लाइड/शीट द्वारा समूहीकृत किया जाता है। गैर-पृष्ठ प्रारूपों (डीओसीएक्स, एचटीएमएल, मार्कडाउन,
|
||
|
|
आदि) के लिए, डिकोडर को दस्तावेज़ को अनुभागों में विभाजित करने के लिए एक रणनीति की आवश्यकता होती है। यह ⟦CODE_0⟧ के माध्यम से रनटाइम पर कॉन्फ़िगर करने योग्य है।
|
||
|
|
अनुभाग। यह `--section-strategy` के माध्यम से रनटाइम पर कॉन्फ़िगर किया जा सकता है।
|
||
|
|
|
||
|
|
प्रत्येक रणनीति `unstructured` तत्वों की सूची पर एक समूहीकरण फ़ंक्शन है। आउटपुट तत्वों के समूहों की एक सूची है; बाकी
|
||
|
|
तत्व। आउटपुट तत्वों के समूहों की एक सूची है; बाकी का
|
||
|
|
पाइपलाइन (टेक्स्ट असेंबली, लाइब्रेरियन स्टोरेज, प्रामाणिकता, टेक्स्टडॉक्यूमेंट
|
||
|
|
उत्सर्जन) रणनीति की परवाह किए बिना समान है।
|
||
|
|
|
||
|
|
#### `whole-document` (डिफ़ॉल्ट)
|
||
|
|
|
||
|
|
पूरे दस्तावेज़ को एक ही अनुभाग के रूप में उत्सर्जित करें। डाउनस्ट्रीम
|
||
|
|
चंकर को सभी विभाजन को संभालने दें।
|
||
|
|
|
||
|
|
सबसे सरल दृष्टिकोण, अच्छा आधार रेखा
|
||
|
|
बड़ी फ़ाइलों के लिए बहुत बड़ा टेक्स्टडॉक्यूमेंट उत्पन्न कर सकता है, लेकिन चंकर
|
||
|
|
इसे संभालता है
|
||
|
|
जब आप प्रति अनुभाग अधिकतम संदर्भ चाहते हैं तो सबसे अच्छा
|
||
|
|
|
||
|
|
#### `heading`
|
||
|
|
|
||
|
|
शीर्षलेख तत्वों (`Title`) पर विभाजित करें। प्रत्येक अनुभाग एक शीर्षलेख प्लस
|
||
|
|
सभी सामग्री है जब तक कि समान या उच्च स्तर का अगला शीर्षलेख न हो। नेस्टेड
|
||
|
|
शीर्षलेख नेस्टेड अनुभाग बनाते हैं।
|
||
|
|
|
||
|
|
विषयगत रूप से सुसंगत इकाइयाँ उत्पन्न करता है
|
||
|
|
संरचित दस्तावेज़ों (रिपोर्ट, मैनुअल, विनिर्देश) के लिए अच्छा काम करता है
|
||
|
|
निष्कर्षण एलएलएम को सामग्री के साथ शीर्षलेख संदर्भ देता है
|
||
|
|
यदि कोई शीर्षलेख नहीं मिला है तो `whole-document` पर वापस आ जाता है
|
||
|
|
|
||
|
|
#### `element-type`
|
||
|
|
|
||
|
|
जब तत्व प्रकार में महत्वपूर्ण परिवर्तन होता है तो विभाजित करें - विशेष रूप से,
|
||
|
|
वर्णनात्मक पाठ और तालिकाओं के बीच संक्रमण पर एक नया अनुभाग शुरू करें। लगातार
|
||
|
|
समान व्यापक श्रेणी (पाठ, पाठ, पाठ या
|
||
|
|
तालिका, तालिका) के तत्व एक साथ समूहीकृत रहते हैं।
|
||
|
|
|
||
|
|
तालिकाओं को स्टैंडअलोन अनुभागों के रूप में रखता है
|
||
|
|
मिश्रित सामग्री वाले दस्तावेज़ों (डेटा तालिकाओं वाली रिपोर्ट) के लिए अच्छा है
|
||
|
|
तालिकाओं को समर्पित निष्कर्षण ध्यान मिलता है
|
||
|
|
|
||
|
|
#### `count`
|
||
|
|
|
||
|
|
तत्वों की एक निश्चित संख्या को प्रति अनुभाग समूहीकृत करें। ⟦CODE_0⟧ के माध्यम से कॉन्फ़िगर करने योग्य (डिफ़ॉल्ट: 20)।
|
||
|
|
`--section-element-count` (डिफ़ॉल्ट: 20)।
|
||
|
|
|
||
|
|
सरल और अनुमानित
|
||
|
|
दस्तावेज़ संरचना का सम्मान नहीं करता है
|
||
|
|
प्रयोग के लिए एक फ़ॉलबैक या उपयोगी
|
||
|
|
|
||
|
|
#### `size`
|
||
|
|
|
||
|
|
तत्वों को तब तक जमा करें जब तक कि एक वर्ण सीमा तक न पहुँच जाए, फिर एक नया अनुभाग शुरू करें। तत्वों की सीमाओं का सम्मान करता है - कभी भी किसी तत्व के बीच में विभाजन नहीं करता है।
|
||
|
|
नए अनुभाग। तत्वों की सीमाओं का सम्मान करता है - कभी भी किसी तत्व के बीच में विभाजन नहीं करता है।
|
||
|
|
`--section-max-size` के माध्यम से कॉन्फ़िगर किया जा सकता है (डिफ़ॉल्ट: 4000 अक्षर)।
|
||
|
|
|
||
|
|
लगभग समान खंड आकार उत्पन्न करता है।
|
||
|
|
तत्वों की सीमाओं का सम्मान करता है (डाउनस्ट्रीम चंकर के विपरीत)।
|
||
|
|
संरचना और आकार नियंत्रण के बीच एक अच्छा समझौता।
|
||
|
|
यदि कोई एकल तत्व सीमा से अधिक है, तो वह अपने आप में एक खंड बन जाता है।
|
||
|
|
|
||
|
|
#### पृष्ठ-आधारित प्रारूप इंटरैक्शन
|
||
|
|
|
||
|
|
पृष्ठ-आधारित स्वरूपों के लिए, पृष्ठ समूहीकरण हमेशा प्राथमिकता लेता है।
|
||
|
|
अनुभाग रणनीतियों को वैकल्पिक रूप से एक पृष्ठ के *अंदर* लागू किया जा सकता है यदि वह बहुत बड़ा है (उदाहरण के लिए, एक बहुत बड़े तालिका वाला पीडीएफ पृष्ठ), जिसे द्वारा नियंत्रित किया जाता है।
|
||
|
|
बड़ा (उदाहरण के लिए, एक पीडीएफ पृष्ठ जिसमें एक बहुत बड़ा तालिका है), जिसे नियंत्रित किया जाता है।
|
||
|
|
`--section-within-pages` (डिफ़ॉल्ट: गलत)। जब गलत होता है, तो प्रत्येक पृष्ठ का
|
||
|
|
आकार की परवाह किए बिना हमेशा एक ही खंड होता है।
|
||
|
|
|
||
|
|
### प्रारूप का पता लगाना
|
||
|
|
|
||
|
|
डीकोडर को दस्तावेज़ के एमआईएमई प्रकार के बारे में पता होना चाहिए ताकि इसे आगे बढ़ाया जा सके।
|
||
|
|
`unstructured` का `partition()`। दो रास्ते:
|
||
|
|
|
||
|
|
**लाइब्रेरियन पथ** (`document_id` सेट): दस्तावेज़ मेटाडेटा प्राप्त करें।
|
||
|
|
सबसे पहले लाइब्रेरियन से जानकारी प्राप्त करें - यह हमें `kind` (मिम टाइप) देता है।
|
||
|
|
जो अपलोड के समय दर्ज किया गया था। फिर दस्तावेज़ सामग्री प्राप्त करें।
|
||
|
|
दो लाइब्रेरियन कॉल, लेकिन मेटाडेटा प्राप्त करना आसान है।
|
||
|
|
**इनलाइन पथ** (पिछला संगतता, `data` सेट): संदेश पर कोई मेटाडेटा उपलब्ध नहीं है।
|
||
|
|
प्रारूप का पता लगाने के लिए `python-magic` का उपयोग करें।
|
||
|
|
सामग्री बाइट्स से एक वैकल्पिक विधि के रूप में।
|
||
|
|
|
||
|
|
`Document` स्कीमा में कोई बदलाव आवश्यक नहीं है - लाइब्रेरियन पहले से ही MIME प्रकार संग्रहीत करता है।
|
||
|
|
|
||
|
|
|
||
|
|
### वास्तुकला
|
||
|
|
|
||
|
|
एक एकल `universal-decoder` सेवा जो:
|
||
|
|
|
||
|
|
1. एक `Document` संदेश प्राप्त होता है (इनलाइन या लाइब्रेरियन संदर्भ के माध्यम से)।
|
||
|
|
2. यदि लाइब्रेरियन पथ है: दस्तावेज़ मेटाडेटा प्राप्त करें (मिम प्रकार प्राप्त करें), फिर
|
||
|
|
सामग्री प्राप्त करें। यदि इनलाइन पथ है: सामग्री बाइट्स से प्रारूप का पता लगाएं।
|
||
|
|
3. तत्वों को निकालने के लिए `partition()` को कॉल करता है।
|
||
|
|
4. तत्वों को समूहीकृत करता है: पृष्ठ-आधारित प्रारूपों के लिए पृष्ठ द्वारा, गैर-पृष्ठ प्रारूपों के लिए कॉन्फ़िगर किए गए
|
||
|
|
अनुभाग रणनीति द्वारा।
|
||
|
|
5. प्रत्येक पृष्ठ/अनुभाग के लिए:
|
||
|
|
एक `urn:page:{uuid}` या `urn:section:{uuid}` आईडी उत्पन्न करता है।
|
||
|
|
पृष्ठ पाठ को असेंबल करता है: वर्णनात्मक पाठ को सादे पाठ के रूप में, तालिकाओं को HTML के रूप में,
|
||
|
|
छवियों को छोड़ दिया जाता है।
|
||
|
|
पृष्ठ पाठ के भीतर प्रत्येक तत्व के लिए वर्ण अद्ययनों की गणना करता है।
|
||
|
|
लाइब्रेरियन में एक चाइल्ड दस्तावेज़ के रूप में सहेजता है।
|
||
|
|
स्थिति संबंधी मेटाडेटा के साथ प्रामाणिकता ट्रिपल उत्सर्जित करता है।
|
||
|
|
टुकड़ों में विभाजित करने के लिए `TextDocument` को आगे भेजता है।
|
||
|
|
6. प्रत्येक छवि तत्व के लिए:
|
||
|
|
एक `urn:image:{uuid}` आईडी उत्पन्न करता है।
|
||
|
|
छवि डेटा को लाइब्रेरियन में एक चाइल्ड दस्तावेज़ के रूप में सहेजता है।
|
||
|
|
प्रामाणिकता ट्रिपल उत्सर्जित करता है (केवल संग्रहीत, आगे नहीं भेजा गया)।
|
||
|
|
|
||
|
|
### प्रारूप प्रबंधन
|
||
|
|
|
||
|
|
| प्रारूप | MIME प्रकार | पृष्ठ-आधारित | नोट्स |
|
||
|
|
|----------|------------------------------------|------------|--------------------------------|
|
||
|
|
| PDF | application/pdf | हाँ | प्रति-पृष्ठ समूहीकरण |
|
||
|
|
| DOCX | application/vnd.openxmlformats... | नहीं | अनुभाग रणनीति का उपयोग करता है |
|
||
|
|
| PPTX | application/vnd.openxmlformats... | हाँ | प्रति-स्लाइड समूहीकरण |
|
||
|
|
| XLSX/XLS | application/vnd.openxmlformats... | हाँ | प्रति-शीट समूहीकरण |
|
||
|
|
| HTML | text/html | नहीं | अनुभाग रणनीति का उपयोग करता है |
|
||
|
|
| Markdown | text/markdown | नहीं | अनुभाग रणनीति का उपयोग करता है |
|
||
|
|
| सादा | text/plain | नहीं | अनुभाग रणनीति का उपयोग करता है |
|
||
|
|
| CSV | text/csv | नहीं | अनुभाग रणनीति का उपयोग करता है |
|
||
|
|
| RST | text/x-rst | नहीं | अनुभाग रणनीति का उपयोग करता है |
|
||
|
|
| RTF | application/rtf | नहीं | अनुभाग रणनीति का उपयोग करता है |
|
||
|
|
| ODT | application/vnd.oasis... | नहीं | अनुभाग रणनीति का उपयोग करता है |
|
||
|
|
| TSV | text/tab-separated-values | नहीं | अनुभाग रणनीति का उपयोग करता है |
|
||
|
|
|
||
|
|
### उत्पत्ति मेटाडेटा
|
||
|
|
|
||
|
|
प्रत्येक पृष्ठ/अनुभाग इकाई, प्रामाणिकता के रूप में स्थिति संबंधी मेटाडेटा को रिकॉर्ड करती है।
|
||
|
|
`GRAPH_SOURCE` में ट्रिपल, जो नॉलेज ग्राफ (KG) ट्रिपल से स्रोत दस्तावेज़ की स्थिति तक पूर्ण पता लगाने की क्षमता प्रदान करते हैं।
|
||
|
|
|
||
|
|
|
||
|
|
#### मौजूदा फ़ील्ड (पहले से ही `derived_entity_triples` में)
|
||
|
|
|
||
|
|
`page_number` — पृष्ठ/शीट/स्लाइड संख्या (1 से शुरू, केवल पृष्ठ-आधारित)
|
||
|
|
`char_offset` — इस पृष्ठ/खंड के भीतर का वर्ण ऑफ़सेट।
|
||
|
|
पूर्ण दस्तावेज़ पाठ
|
||
|
|
`char_length` — इस पृष्ठ/खंड के पाठ की वर्ण संख्या
|
||
|
|
|
||
|
|
#### नए फ़ील्ड (`derived_entity_triples` का विस्तार करें)
|
||
|
|
|
||
|
|
`mime_type` — मूल दस्तावेज़ का प्रारूप (उदाहरण के लिए, `application/pdf`)
|
||
|
|
`element_types` — `unstructured` तत्वों की अल्पविराम-विभाजित सूची
|
||
|
|
इस पृष्ठ/अनुभाग में पाए गए श्रेणियाँ (उदाहरण के लिए, "शीर्षक, वर्णनात्मक पाठ, तालिका")
|
||
|
|
`table_count` — इस पृष्ठ/अनुभाग में तालिकाओं की संख्या
|
||
|
|
`image_count` — इस पृष्ठ/अनुभाग में छवियों की संख्या
|
||
|
|
|
||
|
|
इनके लिए नए टीजी नेमस्पेस विधेयकों की आवश्यकता है:
|
||
|
|
|
||
|
|
```
|
||
|
|
TG_SECTION_TYPE = "https://trustgraph.ai/ns/Section"
|
||
|
|
TG_IMAGE_TYPE = "https://trustgraph.ai/ns/Image"
|
||
|
|
TG_ELEMENT_TYPES = "https://trustgraph.ai/ns/elementTypes"
|
||
|
|
TG_TABLE_COUNT = "https://trustgraph.ai/ns/tableCount"
|
||
|
|
TG_IMAGE_COUNT = "https://trustgraph.ai/ns/imageCount"
|
||
|
|
```
|
||
|
|
|
||
|
|
इमेज यूआरएन योजना: `urn:image:{uuid}`
|
||
|
|
|
||
|
|
(`TG_MIME_TYPE` पहले से मौजूद है।)
|
||
|
|
|
||
|
|
#### नया इकाई प्रकार
|
||
|
|
|
||
|
|
गैर-पेज प्रारूपों (DOCX, HTML, Markdown, आदि) के लिए जहां डिकोडर
|
||
|
|
पूरे दस्तावेज़ को एक इकाई के रूप में उत्सर्जित करता है, न कि पृष्ठों में विभाजित करके,
|
||
|
|
इकाई को एक नया प्रकार मिलता है:
|
||
|
|
|
||
|
|
```
|
||
|
|
TG_SECTION_TYPE = "https://trustgraph.ai/ns/Section"
|
||
|
|
```
|
||
|
|
|
||
|
|
यह अनुभागों को पृष्ठों से अलग करता है जब मूल जानकारी प्राप्त करने के लिए क्वेरी की जाती है:
|
||
|
|
|
||
|
|
| इकाई | प्रकार | उपयोग कब |
|
||
|
|
|---|---|---|
|
||
|
|
| दस्तावेज़ | `tg:Document` | मूल अपलोड की गई फ़ाइल |
|
||
|
|
| पृष्ठ | `tg:Page` | पृष्ठ-आधारित प्रारूप (पीडीएफ, पीपीटीएक्स, एक्सएलएसएक्स) |
|
||
|
|
| अनुभाग | `tg:Section` | गैर-पृष्ठ प्रारूप (डीओएक्स, एचटीएमएल, एमडी, आदि) |
|
||
|
|
| छवि | `tg:Image` | एम्बेडेड छवियां (संग्रहित, संसाधित नहीं) |
|
||
|
|
| भाग | `tg:Chunk` | चंकर का आउटपुट |
|
||
|
|
| उपग्राफ | `tg:Subgraph` | केजी निष्कर्षण आउटपुट |
|
||
|
|
|
||
|
|
प्रकार को डिकोडर द्वारा यह निर्धारित किया जाता है कि यह पृष्ठ द्वारा समूहीकृत है या पूरे दस्तावेज़ अनुभाग को उत्सर्जित कर रहा है। ⟦CODE_0⟧ प्राप्त होता है।
|
||
|
|
या पूरे दस्तावेज़ अनुभाग को उत्सर्जित कर रहा है। `derived_entity_triples` प्राप्त होता है।
|
||
|
|
एक वैकल्पिक `section` बूलियन पैरामीटर - जब सत्य होता है, तो इकाई को
|
||
|
|
`tg:Section` के रूप में टाइप किया जाता है, `tg:Page` के बजाय।
|
||
|
|
|
||
|
|
#### पूर्ण उत्पत्ति श्रृंखला
|
||
|
|
|
||
|
|
```
|
||
|
|
KG triple
|
||
|
|
→ subgraph (extraction provenance)
|
||
|
|
→ chunk (char_offset, char_length within page)
|
||
|
|
→ page/section (page_number, char_offset, char_length within doc, mime_type, element_types)
|
||
|
|
→ document (original file in librarian)
|
||
|
|
```
|
||
|
|
|
||
|
|
प्रत्येक लिंक, `GRAPH_SOURCE` नामक ग्राफ में ट्रिपल के एक सेट का प्रतिनिधित्व करता है।
|
||
|
|
|
||
|
|
### सेवा कॉन्फ़िगरेशन
|
||
|
|
|
||
|
|
कमांड-लाइन तर्क:
|
||
|
|
|
||
|
|
```
|
||
|
|
--strategy Partitioning strategy: auto, hi_res, fast (default: auto)
|
||
|
|
--languages Comma-separated OCR language codes (default: eng)
|
||
|
|
--section-strategy Section grouping: whole-document, heading, element-type,
|
||
|
|
count, size (default: whole-document)
|
||
|
|
--section-element-count Elements per section for 'count' strategy (default: 20)
|
||
|
|
--section-max-size Max chars per section for 'size' strategy (default: 4000)
|
||
|
|
--section-within-pages Apply section strategy within pages too (default: false)
|
||
|
|
```
|
||
|
|
|
||
|
|
साथ ही मानक `FlowProcessor` और लाइब्रेरियन क्यू तर्क।
|
||
|
|
|
||
|
|
### फ्लो इंटीग्रेशन (प्रवाह एकीकरण)
|
||
|
|
|
||
|
|
सार्वभौमिक डिकोडर प्रसंस्करण प्रवाह में उसी स्थिति पर होता है
|
||
|
|
जैसा कि वर्तमान पीडीएफ डिकोडर:
|
||
|
|
|
||
|
|
```
|
||
|
|
Document → [universal-decoder] → TextDocument → [chunker] → Chunk → ...
|
||
|
|
```
|
||
|
|
|
||
|
|
यह पंजीकृत करता है:
|
||
|
|
`input` उपभोक्ता (दस्तावेज़ स्कीमा)
|
||
|
|
`output` उत्पादक (टेक्स्टडॉक्यूमेंट स्कीमा)
|
||
|
|
`triples` उत्पादक (ट्रिपल्स स्कीमा)
|
||
|
|
लाइब्रेरियन अनुरोध/प्रतिक्रिया (फ़ेच और चाइल्ड दस्तावेज़ भंडारण के लिए)
|
||
|
|
|
||
|
|
### परिनियोजन
|
||
|
|
|
||
|
|
नया कंटेनर: `trustgraph-flow-universal-decoder`
|
||
|
|
निर्भरता: `unstructured[all-docs]` (इसमें पीडीएफ, डॉक्स, पीपीटीएक्स, आदि शामिल हैं)
|
||
|
|
यह मौजूदा पीडीएफ डिकोडर के साथ समानांतर रूप से चल सकता है या उसकी जगह ले सकता है, यह इस बात पर निर्भर करता है।
|
||
|
|
प्रवाह विन्यास
|
||
|
|
मौजूदा पीडीएफ डिकोडर उन वातावरणों में भी उपलब्ध रहेगा जहाँ
|
||
|
|
`unstructured` निर्भरताएँ बहुत अधिक हैं
|
||
|
|
|
||
|
|
### क्या बदलाव
|
||
|
|
|
||
|
|
| घटक (Component) | परिवर्तन (Change) |
|
||
|
|
|------------------------------|-------------------------------------------------|
|
||
|
|
| `provenance/namespaces.py` | `TG_SECTION_TYPE`, `TG_IMAGE_TYPE`, `TG_ELEMENT_TYPES`, `TG_TABLE_COUNT`, `TG_IMAGE_COUNT` जोड़ें (Add `TG_SECTION_TYPE`, `TG_IMAGE_TYPE`, `TG_ELEMENT_TYPES`, `TG_TABLE_COUNT`, `TG_IMAGE_COUNT`) |
|
||
|
|
| `provenance/triples.py` | `mime_type`, `element_types`, `table_count`, `image_count` kwargs जोड़ें (Add `mime_type`, `element_types`, `table_count`, `image_count` kwargs) |
|
||
|
|
| `provenance/__init__.py` | नए स्थिरांकों को निर्यात करें (Export new constants) |
|
||
|
|
| नया: `decoding/universal/` | नया डिकोडर सेवा मॉड्यूल (New decoder service module) |
|
||
|
|
| `setup.cfg` / `pyproject` | `unstructured[all-docs]` निर्भरता जोड़ें (Add `unstructured[all-docs]` dependency) |
|
||
|
|
| डॉकर (Docker) | नया कंटेनर इमेज (New container image) |
|
||
|
|
| फ्लो परिभाषाएँ (Flow definitions) | यूनिवर्सल-डिकोडर को दस्तावेज़ इनपुट के रूप में उपयोग करें (Wire universal-decoder as document input) |
|
||
|
|
|
||
|
|
### क्या नहीं बदलता (What Doesn't Change)
|
||
|
|
|
||
|
|
चंकर (टेक्स्टडॉक्यूमेंट प्राप्त करता है, पहले की तरह काम करता है)
|
||
|
|
डाउनस्ट्रीम एक्सट्रैक्टर (चंक प्राप्त करते हैं, अपरिवर्तित)
|
||
|
|
लाइब्रेरियन (चाइल्ड डॉक्यूमेंट्स को संग्रहीत करता है, अपरिवर्तित)
|
||
|
|
स्कीमा (डॉक्यूमेंट, टेक्स्टडॉक्यूमेंट, चंक अपरिवर्तित)
|
||
|
|
क्वेरी-टाइम प्रोवेनेंस (अपरिवर्तित)
|
||
|
|
|
||
|
|
## जोखिम
|
||
|
|
|
||
|
|
`unstructured[all-docs]` में भारी निर्भरताएँ हैं (पोप्लर, टेसेरैक्ट,
|
||
|
|
लिब्रेऑफिस कुछ प्रारूपों के लिए)। कंटेनर इमेज का आकार बड़ा होगा।
|
||
|
|
निवारण: ओसीआर/ऑफिस निर्भरताओं के बिना `[light]` का एक संस्करण प्रदान करें।
|
||
|
|
कुछ प्रारूपों से खराब टेक्स्ट निष्कर्षण हो सकता है (बिना ओसीआर वाले स्कैन किए गए पीडीएफ)।
|
||
|
|
ओसीआर, जटिल एक्सेल (XLSX) लेआउट)। निवारण: कॉन्फ़िगर करने योग्य `strategy`
|
||
|
|
पैरामीटर, और मौजूदा मिस्ट्रल ओसीआर डिकोडर अभी भी उपलब्ध है।
|
||
|
|
उच्च-गुणवत्ता वाले पीडीएफ ओसीआर के लिए।
|
||
|
|
`unstructured` संस्करण अपडेट से तत्व मेटाडेटा में परिवर्तन हो सकता है।
|
||
|
|
निवारण: संस्करण को स्थिर करें, प्रत्येक प्रारूप के लिए निष्कर्षण गुणवत्ता का परीक्षण करें।
|