mirror of
https://github.com/trustgraph-ai/trustgraph.git
synced 2026-04-25 16:36:21 +02:00
Structure the tech specs directory (#836)
Tech spec some subdirectories for different languages
This commit is contained in:
parent
48da6c5f8b
commit
e7efb673ef
423 changed files with 0 additions and 0 deletions
258
docs/tech-specs/hi/structured-data.hi.md
Normal file
258
docs/tech-specs/hi/structured-data.hi.md
Normal file
|
|
@ -0,0 +1,258 @@
|
|||
---
|
||||
layout: default
|
||||
title: "संरचित डेटा तकनीकी विनिर्देश"
|
||||
parent: "Hindi (Beta)"
|
||||
---
|
||||
|
||||
# संरचित डेटा तकनीकी विनिर्देश
|
||||
|
||||
> **Beta Translation:** This document was translated via Machine Learning and as such may not be 100% accurate. All non-English languages are currently classified as Beta.
|
||||
|
||||
## अवलोकन
|
||||
|
||||
यह विनिर्देश ट्रस्टग्राफ को संरचित डेटा प्रवाह के साथ एकीकृत करने का वर्णन करता है, जिससे सिस्टम डेटा के साथ काम कर सके जिसे तालिकाओं में पंक्तियों या ऑब्जेक्ट स्टोर में ऑब्जेक्ट के रूप में दर्शाया जा सकता है। यह एकीकरण चार प्राथमिक उपयोग मामलों का समर्थन करता है:
|
||||
|
||||
1. **असंरचित से संरचित निष्कर्षण**: असंरचित डेटा स्रोतों को पढ़ें, ऑब्जेक्ट संरचनाओं की पहचान करें और उन्हें निकालें, और उन्हें एक सारणीबद्ध प्रारूप में संग्रहीत करें।
|
||||
2. **संरचित डेटा का अंतर्ग्रहण**: डेटा को जो पहले से ही संरचित प्रारूपों में है, उसे सीधे संरचित स्टोर में निकाले गए डेटा के साथ लोड करें।
|
||||
3. **प्राकृतिक भाषा प्रश्न**: प्राकृतिक भाषा के प्रश्नों को संरचित प्रश्नों में परिवर्तित करें ताकि स्टोर से मिलान करने वाले डेटा को निकाला जा सके।
|
||||
4. **प्रत्यक्ष संरचित प्रश्न**: सटीक डेटा पुनर्प्राप्ति के लिए डेटा स्टोर के खिलाफ सीधे संरचित प्रश्नों को निष्पादित करें।
|
||||
|
||||
## लक्ष्य
|
||||
|
||||
**एकीकृत डेटा एक्सेस**: ट्रस्टग्राफ के भीतर संरचित और असंरचित दोनों डेटा तक पहुंचने के लिए एक एकल इंटरफ़ेस प्रदान करें।
|
||||
**निर्बाध एकीकरण**: ट्रस्टग्राफ के ग्राफ-आधारित ज्ञान प्रतिनिधित्व और पारंपरिक संरचित डेटा प्रारूपों के बीच सुचारू अंतर-संचालन को सक्षम करें।
|
||||
**लचीला निष्कर्षण**: विभिन्न असंरचित स्रोतों (दस्तावेज़, पाठ, आदि) से संरचित डेटा के स्वचालित निष्कर्षण का समर्थन करें।
|
||||
**प्रश्न बहुमुखी प्रतिभा**: उपयोगकर्ताओं को प्राकृतिक भाषा और संरचित प्रश्न भाषाओं दोनों का उपयोग करके डेटा क्वेरी करने की अनुमति दें।
|
||||
**डेटा स्थिरता**: विभिन्न डेटा प्रतिनिधित्व में डेटा अखंडता और स्थिरता बनाए रखें।
|
||||
**प्रदर्शन अनुकूलन**: पैमाने पर संरचित डेटा के कुशल भंडारण और पुनर्प्राप्ति सुनिश्चित करें।
|
||||
**स्कीमा लचीलापन**: विभिन्न डेटा स्रोतों को समायोजित करने के लिए स्कीमा-ऑन-राइट और स्कीमा-ऑन-रीड दोनों दृष्टिकोणों का समर्थन करें।
|
||||
**पिछड़ा संगतता**: संरचित डेटा क्षमताओं को जोड़ते समय मौजूदा ट्रस्टग्राफ कार्यक्षमता को संरक्षित करें।
|
||||
|
||||
## पृष्ठभूमि
|
||||
|
||||
ट्रस्टग्राफ वर्तमान में असंरचित डेटा को संसाधित करने और विभिन्न स्रोतों से ज्ञान ग्राफ बनाने में उत्कृष्ट है। हालाँकि, कई उद्यम उपयोग मामलों में डेटा शामिल होता है जो स्वाभाविक रूप से संरचित होता है - ग्राहक रिकॉर्ड, लेनदेन लॉग, इन्वेंट्री डेटाबेस और अन्य सारणीबद्ध डेटासेट। इन संरचित डेटासेट का अक्सर व्यापक अंतर्दृष्टि प्रदान करने के लिए असंरचित सामग्री के साथ विश्लेषण करने की आवश्यकता होती है।
|
||||
|
||||
वर्तमान सीमाएँ शामिल हैं:
|
||||
पूर्व-संरचित डेटा प्रारूपों (CSV, JSON सरणियों, डेटाबेस निर्यात) को अंतर्ग्रहण करने के लिए कोई देशी समर्थन नहीं।
|
||||
दस्तावेज़ों से सारणीबद्ध डेटा निकालते समय अंतर्निहित संरचना को संरक्षित करने में असमर्थता।
|
||||
संरचित डेटा पैटर्न के लिए कुशल प्रश्न तंत्र की कमी।
|
||||
SQL-जैसे प्रश्नों और ट्रस्टग्राफ के ग्राफ प्रश्नों के बीच कोई पुल नहीं।
|
||||
|
||||
यह विनिर्देश इन कमियों को एक संरचित डेटा परत पेश करके संबोधित करता है जो ट्रस्टग्राफ की मौजूदा क्षमताओं को पूरक करता है। संरचित डेटा का मूल रूप से समर्थन करके, ट्रस्टग्राफ:
|
||||
संरचित और असंरचित दोनों डेटा विश्लेषण के लिए एक एकीकृत मंच के रूप में कार्य कर सकता है।
|
||||
ग्राफ संबंधों और सारणीबद्ध डेटा दोनों को कवर करने वाले हाइब्रिड प्रश्नों को सक्षम कर सकता है।
|
||||
संरचित डेटा के साथ काम करने के लिए अभ्यस्त उपयोगकर्ताओं के लिए परिचित इंटरफेस प्रदान कर सकता है।
|
||||
डेटा एकीकरण और व्यावसायिक बुद्धिमत्ता में नए उपयोग मामलों को अनलॉक कर सकता है।
|
||||
|
||||
## तकनीकी डिजाइन
|
||||
|
||||
### वास्तुकला
|
||||
|
||||
संरचित डेटा एकीकरण के लिए निम्नलिखित तकनीकी घटकों की आवश्यकता होती है:
|
||||
|
||||
1. **एनएलपी-टू-स्ट्रक्चर्ड-क्वेरी सेवा**
|
||||
प्राकृतिक भाषा के प्रश्नों को संरचित प्रश्नों में परिवर्तित करता है।
|
||||
कई प्रश्न भाषा लक्ष्यों का समर्थन करता है (प्रारंभ में SQL-जैसे सिंटैक्स)।
|
||||
मौजूदा ट्रस्टग्राफ एनएलपी क्षमताओं के साथ एकीकृत होता है।
|
||||
|
||||
मॉड्यूल: trustgraph-flow/trustgraph/query/nlp_query/cassandra
|
||||
|
||||
2. **कॉन्फ़िगरेशन स्कीमा समर्थन** ✅ **[पूर्ण]**
|
||||
संरचित डेटा स्कीमा को संग्रहीत करने के लिए विस्तारित कॉन्फ़िगरेशन सिस्टम।
|
||||
तालिका संरचनाओं, फ़ील्ड प्रकारों और संबंधों को परिभाषित करने का समर्थन।
|
||||
स्कीमा संस्करण और माइग्रेशन क्षमताएं।
|
||||
|
||||
3. **ऑब्जेक्ट निष्कर्षण मॉड्यूल** ✅ **[पूर्ण]**
|
||||
बेहतर ज्ञान निष्कर्षण प्रवाह एकीकरण।
|
||||
असंरचित स्रोतों से संरचित ऑब्जेक्ट की पहचान और निष्कर्षण।
|
||||
उत्पत्ति और आत्मविश्वास स्कोर बनाए रखता है।
|
||||
एक कॉन्फ़िग हैंडलर (उदाहरण: trustgraph-flow/trustgraph/prompt/template/service.py) को कॉन्फ़िग डेटा प्राप्त करने और स्कीमा जानकारी को डिकोड करने के लिए पंजीकृत करता है।
|
||||
ऑब्जेक्ट प्राप्त करता है और उन्हें पल्सर कतार पर डिलीवरी के लिए एक्सट्रैक्टेडऑब्जेक्ट ऑब्जेक्ट में डिकोड करता है।
|
||||
ध्यान दें: `trustgraph-flow/trustgraph/extract/object/row/` पर मौजूदा कोड है। यह एक पिछला प्रयास था और इसे वर्तमान एपीआई के अनुरूप नहीं होने के कारण प्रमुख रूप से फिर से तैयार करने की आवश्यकता होगी। यदि यह उपयोगी है तो इसका उपयोग करें, यदि नहीं तो इसे खरोंच से शुरू करें।
|
||||
एक कमांड-लाइन इंटरफ़ेस की आवश्यकता है: `kg-extract-objects`
|
||||
|
||||
मॉड्यूल: trustgraph-flow/trustgraph/extract/kg/objects/
|
||||
|
||||
4. **संरचित स्टोर लेखक मॉड्यूल** ✅ **[पूर्ण]**
|
||||
पल्सर कतारों से एक्सट्रैक्टेडऑब्जेक्ट प्रारूप में ऑब्जेक्ट प्राप्त करता है।
|
||||
Apache Cassandra को संरचित डेटा स्टोर के रूप में लक्षित करने वाला प्रारंभिक कार्यान्वयन।
|
||||
सामना किए गए स्कीमा के आधार पर गतिशील तालिका निर्माण को संभालता है।
|
||||
स्कीमा-से-कैसेंड्रा तालिका मैपिंग और डेटा परिवर्तन का प्रबंधन करता है।
|
||||
प्रदर्शन अनुकूलन के लिए बैच और स्ट्रीमिंग लेखन संचालन प्रदान करता है।
|
||||
कोई पल्सर आउटपुट नहीं - यह डेटा प्रवाह में एक टर्मिनल सेवा है।
|
||||
|
||||
**स्कीमा हैंडलिंग**:
|
||||
स्कीमा संदर्भों के लिए आने वाले एक्सट्रैक्टेडऑब्जेक्ट संदेशों की निगरानी करता है।
|
||||
पहली बार जब एक नया स्कीमा सामना किया जाता है, तो स्वचालित रूप से संबंधित कैसेंड्रा तालिका बनाता है।
|
||||
ज्ञात स्कीमा के एक कैश को बनाए रखता है ताकि अनावश्यक तालिका निर्माण प्रयासों से बचा जा सके।
|
||||
इस पर विचार करना चाहिए कि स्कीमा परिभाषाएँ सीधे प्राप्त की जानी चाहिए या एक्सट्रैक्टेडऑब्जेक्ट संदेशों में स्कीमा नामों पर भरोसा किया जाना चाहिए।
|
||||
|
||||
**कैसेंड्रा टेबल मैपिंग**:
|
||||
कीस्पेस का नाम एक्सट्रैक्टेडऑब्जेक्ट के मेटाडेटा से `user` फ़ील्ड से लिया गया है।
|
||||
टेबल का नाम एक्सट्रैक्टेडऑब्जेक्ट से `schema_name` फ़ील्ड से लिया गया है।
|
||||
मेटाडेटा से कलेक्शन को पार्टीशन कुंजी का हिस्सा बनाया जाता है ताकि:
|
||||
कैसेंड्रा नोड्स में डेटा का प्राकृतिक वितरण सुनिश्चित हो सके।
|
||||
एक विशिष्ट कलेक्शन के भीतर कुशल क्वेरीज़ संभव हों।
|
||||
विभिन्न डेटा आयात/स्रोत के बीच तार्किक अलगाव सुनिश्चित हो सके।
|
||||
प्राइमरी की संरचना: `PRIMARY KEY ((collection, <schema_primary_key_fields>), <clustering_keys>)`
|
||||
कलेक्शन हमेशा पार्टीशन कुंजी का पहला घटक होता है।
|
||||
स्कीमा-परिभाषित प्राइमरी की फ़ील्ड, समग्र पार्टीशन कुंजी का हिस्सा होते हैं।
|
||||
इसके लिए क्वेरीज़ में कलेक्शन को निर्दिष्ट करने की आवश्यकता होती है, जिससे प्रदर्शन पूर्वानुमेय रहता है।
|
||||
फ़ील्ड परिभाषाएँ कैसेंड्रा कॉलम में टाइप रूपांतरण के साथ मैप होती हैं:
|
||||
`string` → `text`
|
||||
`integer` → `int` या `bigint`, आकार के संकेत के आधार पर।
|
||||
`float` → `float` या `double`, परिशुद्धता की आवश्यकताओं के आधार पर।
|
||||
`boolean` → `boolean`
|
||||
`timestamp` → `timestamp`
|
||||
`enum` → `text`, एप्लिकेशन-स्तरीय सत्यापन के साथ।
|
||||
अनुक्रमित फ़ील्ड कैसेंड्रा सेकेंडरी इंडेक्स बनाते हैं (प्राइमरी कुंजी में पहले से मौजूद फ़ील्ड को छोड़कर)।
|
||||
आवश्यक फ़ील्ड एप्लिकेशन स्तर पर लागू किए जाते हैं (कैसेंड्रा NOT NULL का समर्थन नहीं करता है)।
|
||||
|
||||
**ऑब्जेक्ट स्टोरेज**:
|
||||
एक्सट्रैक्टेडऑब्जेक्ट.वैल्यूज़ मैप से मान निकाले जाते हैं।
|
||||
सम्मिलन से पहले टाइप रूपांतरण और सत्यापन किया जाता है।
|
||||
गुम वैकल्पिक फ़ील्ड को कुशलतापूर्वक संभाला जाता है।
|
||||
ऑब्जेक्ट की उत्पत्ति के बारे में मेटाडेटा बनाए रखा जाता है (स्रोत दस्तावेज़, आत्मविश्वास स्कोर)।
|
||||
संदेश पुनरावृत्ति परिदृश्यों को संभालने के लिए आइडेंपोटेंट राइट का समर्थन करता है।
|
||||
|
||||
**कार्यान्वयन नोट्स**:
|
||||
`trustgraph-flow/trustgraph/storage/objects/cassandra/` पर मौजूद मौजूदा कोड पुराना है और वर्तमान एपीआई के अनुरूप नहीं है।
|
||||
`trustgraph-flow/trustgraph/storage/triples/cassandra` को एक कार्यशील स्टोरेज प्रोसेसर के उदाहरण के रूप में संदर्भित किया जाना चाहिए।
|
||||
पुन: उपयोग करने योग्य घटकों के लिए मौजूदा कोड का मूल्यांकन किया जाना चाहिए, फिर रिफैक्टर या फिर से लिखने का निर्णय लिया जाना चाहिए।
|
||||
|
||||
मॉड्यूल: trustgraph-flow/trustgraph/storage/objects/cassandra
|
||||
|
||||
5. **स्ट्रक्चर्ड क्वेरी सर्विस** ✅ **[पूर्ण]**
|
||||
परिभाषित प्रारूपों में संरचित क्वेरी स्वीकार करता है।
|
||||
संरचित स्टोर के खिलाफ क्वेरी निष्पादित करता है।
|
||||
क्वेरी मानदंडों से मेल खाने वाले ऑब्जेक्ट लौटाता है।
|
||||
पेजिंग और परिणाम फ़िल्टरिंग का समर्थन करता है।
|
||||
|
||||
मॉड्यूल: trustgraph-flow/trustgraph/query/objects/cassandra
|
||||
|
||||
6. **एजेंट टूल इंटीग्रेशन**:
|
||||
एजेंट फ्रेमवर्क के लिए एक नया टूल क्लास।
|
||||
एजेंटों को संरचित डेटा स्टोर से क्वेरी करने में सक्षम बनाता है।
|
||||
प्राकृतिक भाषा और संरचित क्वेरी इंटरफेस प्रदान करता है।
|
||||
मौजूदा एजेंट निर्णय लेने की प्रक्रियाओं के साथ एकीकृत होता है।
|
||||
|
||||
7. **स्ट्रक्चर्ड डेटा इंजेक्शन सर्विस**:
|
||||
कई प्रारूपों (JSON, CSV, XML) में संरचित डेटा स्वीकार करता है।
|
||||
परिभाषित स्कीमा के खिलाफ आने वाले डेटा को पार्स और सत्यापित करता है।
|
||||
डेटा को सामान्यीकृत ऑब्जेक्ट स्ट्रीम में परिवर्तित करता है।
|
||||
प्रसंस्करण के लिए उपयुक्त संदेश कतारों में ऑब्जेक्ट उत्सर्जित करता है।
|
||||
बल्क अपलोड और स्ट्रीमिंग इंजेक्शन का समर्थन करता है।
|
||||
|
||||
मॉड्यूल: trustgraph-flow/trustgraph/decoding/structured
|
||||
|
||||
8. **ऑब्जेक्ट एम्बेडिंग सर्विस**:
|
||||
संरचित ऑब्जेक्ट के लिए वेक्टर एम्बेडिंग उत्पन्न करता है।
|
||||
संरचित डेटा में सिमेंटिक खोज को सक्षम करता है।
|
||||
संरचित क्वेरी के साथ सिमेंटिक समानता को मिलाकर हाइब्रिड खोज का समर्थन करता है।
|
||||
मौजूदा वेक्टर स्टोर के साथ एकीकृत होता है।
|
||||
|
||||
मॉड्यूल: trustgraph-flow/trustgraph/embeddings/object_embeddings/qdrant
|
||||
|
||||
### डेटा मॉडल:
|
||||
|
||||
#### स्कीमा स्टोरेज मैकेनिज्म:
|
||||
|
||||
स्कीमा को ट्रस्टग्राफ की कॉन्फ़िगरेशन प्रणाली में निम्नलिखित संरचना का उपयोग करके संग्रहीत किया जाता है:
|
||||
|
||||
**टाइप**: `schema` (सभी संरचित डेटा स्कीमा के लिए एक निश्चित मान)।
|
||||
**की**: स्कीमा का अद्वितीय नाम/पहचानकर्ता (जैसे, `customer_records`, `transaction_log`)।
|
||||
**वैल्यू**: संरचना वाली JSON स्कीमा परिभाषा।
|
||||
|
||||
उदाहरण कॉन्फ़िगरेशन प्रविष्टि:
|
||||
```
|
||||
Type: schema
|
||||
Key: customer_records
|
||||
Value: {
|
||||
"name": "customer_records",
|
||||
"description": "Customer information table",
|
||||
"fields": [
|
||||
{
|
||||
"name": "customer_id",
|
||||
"type": "string",
|
||||
"primary_key": true
|
||||
},
|
||||
{
|
||||
"name": "name",
|
||||
"type": "string",
|
||||
"required": true
|
||||
},
|
||||
{
|
||||
"name": "email",
|
||||
"type": "string",
|
||||
"required": true
|
||||
},
|
||||
{
|
||||
"name": "registration_date",
|
||||
"type": "timestamp"
|
||||
},
|
||||
{
|
||||
"name": "status",
|
||||
"type": "string",
|
||||
"enum": ["active", "inactive", "suspended"]
|
||||
}
|
||||
],
|
||||
"indexes": ["email", "registration_date"]
|
||||
}
|
||||
```
|
||||
|
||||
यह दृष्टिकोण निम्नलिखित कार्य करने की अनुमति देता है:
|
||||
कोड में बदलाव किए बिना गतिशील स्कीमा परिभाषा
|
||||
आसान स्कीमा अपडेट और संस्करण
|
||||
मौजूदा ट्रस्टग्राफ कॉन्फ़िगरेशन प्रबंधन के साथ सुसंगत एकीकरण
|
||||
एक ही परिनियोजन में एकाधिक स्कीमा के लिए समर्थन
|
||||
|
||||
### एपीआई
|
||||
|
||||
नए एपीआई:
|
||||
ऊपर दिए गए प्रकारों के लिए पल्सर स्कीमा
|
||||
नए फ्लो में पल्सर इंटरफेस
|
||||
फ्लो को यह जानने के लिए कि कौन से
|
||||
स्कीमा प्रकार लोड करने हैं, फ्लो में स्कीमा प्रकारों को निर्दिष्ट करने का एक तरीका आवश्यक है।
|
||||
गेटवे और रिव-गेटवे में जोड़े गए एपीआई
|
||||
|
||||
संशोधित एपीआई:
|
||||
नॉलेज एक्सट्रैक्शन एंडपॉइंट - संरचित ऑब्जेक्ट आउटपुट विकल्प जोड़ें
|
||||
एजेंट एंडपॉइंट - संरचित डेटा टूल समर्थन जोड़ें
|
||||
|
||||
### कार्यान्वयन विवरण
|
||||
|
||||
मौजूदा सम्मेलनों का पालन करें - ये केवल नए प्रोसेसिंग मॉड्यूल हैं।
|
||||
सब कुछ ट्रस्टग्राफ-फ्लो पैकेजों में है, सिवाय ट्रस्टग्राफ-बेस में स्कीमा आइटम के।
|
||||
|
||||
|
||||
इस क्षमता का प्रदर्शन/पायलट करने के लिए वर्कबेंच में कुछ यूआई कार्य की आवश्यकता है।
|
||||
|
||||
|
||||
## सुरक्षा संबंधी विचार
|
||||
|
||||
कोई अतिरिक्त विचार नहीं।
|
||||
|
||||
## प्रदर्शन संबंधी विचार
|
||||
|
||||
कैसेंड्रा प्रश्नों और इंडेक्स का उपयोग करने के बारे में कुछ प्रश्न हैं ताकि प्रश्न धीमे न हों।
|
||||
|
||||
## परीक्षण रणनीति
|
||||
|
||||
मौजूदा परीक्षण रणनीति का उपयोग करें, यूनिट, कॉन्ट्रैक्ट और एकीकरण परीक्षण बनाए जाएंगे।
|
||||
|
||||
## माइग्रेशन योजना
|
||||
|
||||
कोई नहीं।
|
||||
|
||||
## समयरेखा
|
||||
|
||||
निर्दिष्ट नहीं है।
|
||||
|
||||
## खुले प्रश्न
|
||||
|
||||
|
||||
क्या इसे अन्य स्टोर प्रकारों के साथ काम करने के लिए बनाया जा सकता है? हम इंटरफेस का उपयोग करने का लक्ष्य रख रहे हैं जो एक स्टोर के साथ काम करने वाले मॉड्यूल को अन्य स्टोर पर लागू करने योग्य बनाते हैं।
|
||||
|
||||
## संदर्भ
|
||||
|
||||
लागू नहीं।
|
||||
Loading…
Add table
Add a link
Reference in a new issue