trustgraph/docs/tech-specs/structured-data.hi.md
Alex Jenkins 8954fa3ad7 Feat: TrustGraph i18n & Documentation Translation Updates (#781)
Native CLI i18n: The TrustGraph CLI has built-in translation support
that dynamically loads language strings. You can test and use
different languages by simply passing the --lang flag (e.g., --lang
es for Spanish, --lang ru for Russian) or by configuring your
environment's LANG variable.

Automated Docs Translations: This PR introduces autonomously
translated Markdown documentation into several target languages,
including Spanish, Swahili, Portuguese, Turkish, Hindi, Hebrew,
Arabic, Simplified Chinese, and Russian.
2026-04-14 12:08:32 +01:00

27 KiB

layout title parent
default संरचित डेटा तकनीकी विनिर्देश Hindi (Beta)

संरचित डेटा तकनीकी विनिर्देश

Beta Translation: This document was translated via Machine Learning and as such may not be 100% accurate. All non-English languages are currently classified as Beta.

अवलोकन

यह विनिर्देश ट्रस्टग्राफ को संरचित डेटा प्रवाह के साथ एकीकृत करने का वर्णन करता है, जिससे सिस्टम डेटा के साथ काम कर सके जिसे तालिकाओं में पंक्तियों या ऑब्जेक्ट स्टोर में ऑब्जेक्ट के रूप में दर्शाया जा सकता है। यह एकीकरण चार प्राथमिक उपयोग मामलों का समर्थन करता है:

  1. असंरचित से संरचित निष्कर्षण: असंरचित डेटा स्रोतों को पढ़ें, ऑब्जेक्ट संरचनाओं की पहचान करें और उन्हें निकालें, और उन्हें एक सारणीबद्ध प्रारूप में संग्रहीत करें।
  2. संरचित डेटा का अंतर्ग्रहण: डेटा को जो पहले से ही संरचित प्रारूपों में है, उसे सीधे संरचित स्टोर में निकाले गए डेटा के साथ लोड करें।
  3. प्राकृतिक भाषा प्रश्न: प्राकृतिक भाषा के प्रश्नों को संरचित प्रश्नों में परिवर्तित करें ताकि स्टोर से मिलान करने वाले डेटा को निकाला जा सके।
  4. प्रत्यक्ष संरचित प्रश्न: सटीक डेटा पुनर्प्राप्ति के लिए डेटा स्टोर के खिलाफ सीधे संरचित प्रश्नों को निष्पादित करें।

लक्ष्य

एकीकृत डेटा एक्सेस: ट्रस्टग्राफ के भीतर संरचित और असंरचित दोनों डेटा तक पहुंचने के लिए एक एकल इंटरफ़ेस प्रदान करें। निर्बाध एकीकरण: ट्रस्टग्राफ के ग्राफ-आधारित ज्ञान प्रतिनिधित्व और पारंपरिक संरचित डेटा प्रारूपों के बीच सुचारू अंतर-संचालन को सक्षम करें। लचीला निष्कर्षण: विभिन्न असंरचित स्रोतों (दस्तावेज़, पाठ, आदि) से संरचित डेटा के स्वचालित निष्कर्षण का समर्थन करें। प्रश्न बहुमुखी प्रतिभा: उपयोगकर्ताओं को प्राकृतिक भाषा और संरचित प्रश्न भाषाओं दोनों का उपयोग करके डेटा क्वेरी करने की अनुमति दें। डेटा स्थिरता: विभिन्न डेटा प्रतिनिधित्व में डेटा अखंडता और स्थिरता बनाए रखें। प्रदर्शन अनुकूलन: पैमाने पर संरचित डेटा के कुशल भंडारण और पुनर्प्राप्ति सुनिश्चित करें। स्कीमा लचीलापन: विभिन्न डेटा स्रोतों को समायोजित करने के लिए स्कीमा-ऑन-राइट और स्कीमा-ऑन-रीड दोनों दृष्टिकोणों का समर्थन करें। पिछड़ा संगतता: संरचित डेटा क्षमताओं को जोड़ते समय मौजूदा ट्रस्टग्राफ कार्यक्षमता को संरक्षित करें।

पृष्ठभूमि

ट्रस्टग्राफ वर्तमान में असंरचित डेटा को संसाधित करने और विभिन्न स्रोतों से ज्ञान ग्राफ बनाने में उत्कृष्ट है। हालाँकि, कई उद्यम उपयोग मामलों में डेटा शामिल होता है जो स्वाभाविक रूप से संरचित होता है - ग्राहक रिकॉर्ड, लेनदेन लॉग, इन्वेंट्री डेटाबेस और अन्य सारणीबद्ध डेटासेट। इन संरचित डेटासेट का अक्सर व्यापक अंतर्दृष्टि प्रदान करने के लिए असंरचित सामग्री के साथ विश्लेषण करने की आवश्यकता होती है।

वर्तमान सीमाएँ शामिल हैं: पूर्व-संरचित डेटा प्रारूपों (CSV, JSON सरणियों, डेटाबेस निर्यात) को अंतर्ग्रहण करने के लिए कोई देशी समर्थन नहीं। दस्तावेज़ों से सारणीबद्ध डेटा निकालते समय अंतर्निहित संरचना को संरक्षित करने में असमर्थता। संरचित डेटा पैटर्न के लिए कुशल प्रश्न तंत्र की कमी। SQL-जैसे प्रश्नों और ट्रस्टग्राफ के ग्राफ प्रश्नों के बीच कोई पुल नहीं।

यह विनिर्देश इन कमियों को एक संरचित डेटा परत पेश करके संबोधित करता है जो ट्रस्टग्राफ की मौजूदा क्षमताओं को पूरक करता है। संरचित डेटा का मूल रूप से समर्थन करके, ट्रस्टग्राफ: संरचित और असंरचित दोनों डेटा विश्लेषण के लिए एक एकीकृत मंच के रूप में कार्य कर सकता है। ग्राफ संबंधों और सारणीबद्ध डेटा दोनों को कवर करने वाले हाइब्रिड प्रश्नों को सक्षम कर सकता है। संरचित डेटा के साथ काम करने के लिए अभ्यस्त उपयोगकर्ताओं के लिए परिचित इंटरफेस प्रदान कर सकता है। डेटा एकीकरण और व्यावसायिक बुद्धिमत्ता में नए उपयोग मामलों को अनलॉक कर सकता है।

तकनीकी डिजाइन

वास्तुकला

संरचित डेटा एकीकरण के लिए निम्नलिखित तकनीकी घटकों की आवश्यकता होती है:

  1. एनएलपी-टू-स्ट्रक्चर्ड-क्वेरी सेवा प्राकृतिक भाषा के प्रश्नों को संरचित प्रश्नों में परिवर्तित करता है। कई प्रश्न भाषा लक्ष्यों का समर्थन करता है (प्रारंभ में SQL-जैसे सिंटैक्स)। मौजूदा ट्रस्टग्राफ एनएलपी क्षमताओं के साथ एकीकृत होता है।

    मॉड्यूल: trustgraph-flow/trustgraph/query/nlp_query/cassandra

  2. कॉन्फ़िगरेशन स्कीमा समर्थन [पूर्ण] संरचित डेटा स्कीमा को संग्रहीत करने के लिए विस्तारित कॉन्फ़िगरेशन सिस्टम। तालिका संरचनाओं, फ़ील्ड प्रकारों और संबंधों को परिभाषित करने का समर्थन। स्कीमा संस्करण और माइग्रेशन क्षमताएं।

  3. ऑब्जेक्ट निष्कर्षण मॉड्यूल [पूर्ण] बेहतर ज्ञान निष्कर्षण प्रवाह एकीकरण। असंरचित स्रोतों से संरचित ऑब्जेक्ट की पहचान और निष्कर्षण। उत्पत्ति और आत्मविश्वास स्कोर बनाए रखता है। एक कॉन्फ़िग हैंडलर (उदाहरण: trustgraph-flow/trustgraph/prompt/template/service.py) को कॉन्फ़िग डेटा प्राप्त करने और स्कीमा जानकारी को डिकोड करने के लिए पंजीकृत करता है। ऑब्जेक्ट प्राप्त करता है और उन्हें पल्सर कतार पर डिलीवरी के लिए एक्सट्रैक्टेडऑब्जेक्ट ऑब्जेक्ट में डिकोड करता है। ध्यान दें: trustgraph-flow/trustgraph/extract/object/row/ पर मौजूदा कोड है। यह एक पिछला प्रयास था और इसे वर्तमान एपीआई के अनुरूप नहीं होने के कारण प्रमुख रूप से फिर से तैयार करने की आवश्यकता होगी। यदि यह उपयोगी है तो इसका उपयोग करें, यदि नहीं तो इसे खरोंच से शुरू करें। एक कमांड-लाइन इंटरफ़ेस की आवश्यकता है: kg-extract-objects

    मॉड्यूल: trustgraph-flow/trustgraph/extract/kg/objects/

  4. संरचित स्टोर लेखक मॉड्यूल [पूर्ण] पल्सर कतारों से एक्सट्रैक्टेडऑब्जेक्ट प्रारूप में ऑब्जेक्ट प्राप्त करता है। Apache Cassandra को संरचित डेटा स्टोर के रूप में लक्षित करने वाला प्रारंभिक कार्यान्वयन। सामना किए गए स्कीमा के आधार पर गतिशील तालिका निर्माण को संभालता है। स्कीमा-से-कैसेंड्रा तालिका मैपिंग और डेटा परिवर्तन का प्रबंधन करता है। प्रदर्शन अनुकूलन के लिए बैच और स्ट्रीमिंग लेखन संचालन प्रदान करता है। कोई पल्सर आउटपुट नहीं - यह डेटा प्रवाह में एक टर्मिनल सेवा है।

    स्कीमा हैंडलिंग: स्कीमा संदर्भों के लिए आने वाले एक्सट्रैक्टेडऑब्जेक्ट संदेशों की निगरानी करता है। पहली बार जब एक नया स्कीमा सामना किया जाता है, तो स्वचालित रूप से संबंधित कैसेंड्रा तालिका बनाता है। ज्ञात स्कीमा के एक कैश को बनाए रखता है ताकि अनावश्यक तालिका निर्माण प्रयासों से बचा जा सके। इस पर विचार करना चाहिए कि स्कीमा परिभाषाएँ सीधे प्राप्त की जानी चाहिए या एक्सट्रैक्टेडऑब्जेक्ट संदेशों में स्कीमा नामों पर भरोसा किया जाना चाहिए।

    कैसेंड्रा टेबल मैपिंग: कीस्पेस का नाम एक्सट्रैक्टेडऑब्जेक्ट के मेटाडेटा से user फ़ील्ड से लिया गया है। टेबल का नाम एक्सट्रैक्टेडऑब्जेक्ट से schema_name फ़ील्ड से लिया गया है। मेटाडेटा से कलेक्शन को पार्टीशन कुंजी का हिस्सा बनाया जाता है ताकि: कैसेंड्रा नोड्स में डेटा का प्राकृतिक वितरण सुनिश्चित हो सके। एक विशिष्ट कलेक्शन के भीतर कुशल क्वेरीज़ संभव हों। विभिन्न डेटा आयात/स्रोत के बीच तार्किक अलगाव सुनिश्चित हो सके। प्राइमरी की संरचना: PRIMARY KEY ((collection, <schema_primary_key_fields>), <clustering_keys>) कलेक्शन हमेशा पार्टीशन कुंजी का पहला घटक होता है। स्कीमा-परिभाषित प्राइमरी की फ़ील्ड, समग्र पार्टीशन कुंजी का हिस्सा होते हैं। इसके लिए क्वेरीज़ में कलेक्शन को निर्दिष्ट करने की आवश्यकता होती है, जिससे प्रदर्शन पूर्वानुमेय रहता है। फ़ील्ड परिभाषाएँ कैसेंड्रा कॉलम में टाइप रूपांतरण के साथ मैप होती हैं: stringtext integerint या bigint, आकार के संकेत के आधार पर। floatfloat या double, परिशुद्धता की आवश्यकताओं के आधार पर। booleanboolean timestamptimestamp enumtext, एप्लिकेशन-स्तरीय सत्यापन के साथ। अनुक्रमित फ़ील्ड कैसेंड्रा सेकेंडरी इंडेक्स बनाते हैं (प्राइमरी कुंजी में पहले से मौजूद फ़ील्ड को छोड़कर)। आवश्यक फ़ील्ड एप्लिकेशन स्तर पर लागू किए जाते हैं (कैसेंड्रा NOT NULL का समर्थन नहीं करता है)।

    ऑब्जेक्ट स्टोरेज: एक्सट्रैक्टेडऑब्जेक्ट.वैल्यूज़ मैप से मान निकाले जाते हैं। सम्मिलन से पहले टाइप रूपांतरण और सत्यापन किया जाता है। गुम वैकल्पिक फ़ील्ड को कुशलतापूर्वक संभाला जाता है। ऑब्जेक्ट की उत्पत्ति के बारे में मेटाडेटा बनाए रखा जाता है (स्रोत दस्तावेज़, आत्मविश्वास स्कोर)। संदेश पुनरावृत्ति परिदृश्यों को संभालने के लिए आइडेंपोटेंट राइट का समर्थन करता है।

    कार्यान्वयन नोट्स: trustgraph-flow/trustgraph/storage/objects/cassandra/ पर मौजूद मौजूदा कोड पुराना है और वर्तमान एपीआई के अनुरूप नहीं है। trustgraph-flow/trustgraph/storage/triples/cassandra को एक कार्यशील स्टोरेज प्रोसेसर के उदाहरण के रूप में संदर्भित किया जाना चाहिए। पुन: उपयोग करने योग्य घटकों के लिए मौजूदा कोड का मूल्यांकन किया जाना चाहिए, फिर रिफैक्टर या फिर से लिखने का निर्णय लिया जाना चाहिए।

    मॉड्यूल: trustgraph-flow/trustgraph/storage/objects/cassandra

  5. स्ट्रक्चर्ड क्वेरी सर्विस [पूर्ण] परिभाषित प्रारूपों में संरचित क्वेरी स्वीकार करता है। संरचित स्टोर के खिलाफ क्वेरी निष्पादित करता है। क्वेरी मानदंडों से मेल खाने वाले ऑब्जेक्ट लौटाता है। पेजिंग और परिणाम फ़िल्टरिंग का समर्थन करता है।

    मॉड्यूल: trustgraph-flow/trustgraph/query/objects/cassandra

  6. एजेंट टूल इंटीग्रेशन: एजेंट फ्रेमवर्क के लिए एक नया टूल क्लास। एजेंटों को संरचित डेटा स्टोर से क्वेरी करने में सक्षम बनाता है। प्राकृतिक भाषा और संरचित क्वेरी इंटरफेस प्रदान करता है। मौजूदा एजेंट निर्णय लेने की प्रक्रियाओं के साथ एकीकृत होता है।

  7. स्ट्रक्चर्ड डेटा इंजेक्शन सर्विस: कई प्रारूपों (JSON, CSV, XML) में संरचित डेटा स्वीकार करता है। परिभाषित स्कीमा के खिलाफ आने वाले डेटा को पार्स और सत्यापित करता है। डेटा को सामान्यीकृत ऑब्जेक्ट स्ट्रीम में परिवर्तित करता है। प्रसंस्करण के लिए उपयुक्त संदेश कतारों में ऑब्जेक्ट उत्सर्जित करता है। बल्क अपलोड और स्ट्रीमिंग इंजेक्शन का समर्थन करता है।

    मॉड्यूल: trustgraph-flow/trustgraph/decoding/structured

  8. ऑब्जेक्ट एम्बेडिंग सर्विस: संरचित ऑब्जेक्ट के लिए वेक्टर एम्बेडिंग उत्पन्न करता है। संरचित डेटा में सिमेंटिक खोज को सक्षम करता है। संरचित क्वेरी के साथ सिमेंटिक समानता को मिलाकर हाइब्रिड खोज का समर्थन करता है। मौजूदा वेक्टर स्टोर के साथ एकीकृत होता है।

    मॉड्यूल: trustgraph-flow/trustgraph/embeddings/object_embeddings/qdrant

डेटा मॉडल:

स्कीमा स्टोरेज मैकेनिज्म:

स्कीमा को ट्रस्टग्राफ की कॉन्फ़िगरेशन प्रणाली में निम्नलिखित संरचना का उपयोग करके संग्रहीत किया जाता है:

टाइप: schema (सभी संरचित डेटा स्कीमा के लिए एक निश्चित मान)। की: स्कीमा का अद्वितीय नाम/पहचानकर्ता (जैसे, customer_records, transaction_log)। वैल्यू: संरचना वाली JSON स्कीमा परिभाषा।

उदाहरण कॉन्फ़िगरेशन प्रविष्टि:

Type: schema
Key: customer_records
Value: {
  "name": "customer_records",
  "description": "Customer information table",
  "fields": [
    {
      "name": "customer_id",
      "type": "string",
      "primary_key": true
    },
    {
      "name": "name",
      "type": "string",
      "required": true
    },
    {
      "name": "email",
      "type": "string",
      "required": true
    },
    {
      "name": "registration_date",
      "type": "timestamp"
    },
    {
      "name": "status",
      "type": "string",
      "enum": ["active", "inactive", "suspended"]
    }
  ],
  "indexes": ["email", "registration_date"]
}

यह दृष्टिकोण निम्नलिखित कार्य करने की अनुमति देता है: कोड में बदलाव किए बिना गतिशील स्कीमा परिभाषा आसान स्कीमा अपडेट और संस्करण मौजूदा ट्रस्टग्राफ कॉन्फ़िगरेशन प्रबंधन के साथ सुसंगत एकीकरण एक ही परिनियोजन में एकाधिक स्कीमा के लिए समर्थन

एपीआई

नए एपीआई: ऊपर दिए गए प्रकारों के लिए पल्सर स्कीमा नए फ्लो में पल्सर इंटरफेस फ्लो को यह जानने के लिए कि कौन से स्कीमा प्रकार लोड करने हैं, फ्लो में स्कीमा प्रकारों को निर्दिष्ट करने का एक तरीका आवश्यक है। गेटवे और रिव-गेटवे में जोड़े गए एपीआई

संशोधित एपीआई: नॉलेज एक्सट्रैक्शन एंडपॉइंट - संरचित ऑब्जेक्ट आउटपुट विकल्प जोड़ें एजेंट एंडपॉइंट - संरचित डेटा टूल समर्थन जोड़ें

कार्यान्वयन विवरण

मौजूदा सम्मेलनों का पालन करें - ये केवल नए प्रोसेसिंग मॉड्यूल हैं। सब कुछ ट्रस्टग्राफ-फ्लो पैकेजों में है, सिवाय ट्रस्टग्राफ-बेस में स्कीमा आइटम के।

इस क्षमता का प्रदर्शन/पायलट करने के लिए वर्कबेंच में कुछ यूआई कार्य की आवश्यकता है।

सुरक्षा संबंधी विचार

कोई अतिरिक्त विचार नहीं।

प्रदर्शन संबंधी विचार

कैसेंड्रा प्रश्नों और इंडेक्स का उपयोग करने के बारे में कुछ प्रश्न हैं ताकि प्रश्न धीमे न हों।

परीक्षण रणनीति

मौजूदा परीक्षण रणनीति का उपयोग करें, यूनिट, कॉन्ट्रैक्ट और एकीकरण परीक्षण बनाए जाएंगे।

माइग्रेशन योजना

कोई नहीं।

समयरेखा

निर्दिष्ट नहीं है।

खुले प्रश्न

क्या इसे अन्य स्टोर प्रकारों के साथ काम करने के लिए बनाया जा सकता है? हम इंटरफेस का उपयोग करने का लक्ष्य रख रहे हैं जो एक स्टोर के साथ काम करने वाले मॉड्यूल को अन्य स्टोर पर लागू करने योग्य बनाते हैं।

संदर्भ

लागू नहीं।