mirror of
https://github.com/trustgraph-ai/trustgraph.git
synced 2026-04-25 08:26:21 +02:00
136 lines
4.9 KiB
Markdown
136 lines
4.9 KiB
Markdown
|
|
---
|
|||
|
|
layout: default
|
|||
|
|
title: "知识图谱架构基础"
|
|||
|
|
parent: "Chinese (Beta)"
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
# 知识图谱架构基础
|
|||
|
|
|
|||
|
|
> **Beta Translation:** This document was translated via Machine Learning and as such may not be 100% accurate. All non-English languages are currently classified as Beta.
|
|||
|
|
|
|||
|
|
## 基础 1:主谓宾 (SPO) 图模型
|
|||
|
|
**决策**: 采用 SPO/RDF 作为核心知识表示模型
|
|||
|
|
|
|||
|
|
**理由**:
|
|||
|
|
提供最大的灵活性和与现有图技术的互操作性
|
|||
|
|
能够无缝转换为其他图查询语言 (例如,SPO → Cypher,反之则不行)
|
|||
|
|
奠定基础,"解锁"许多下游功能
|
|||
|
|
支持节点到节点的关系 (SPO) 和节点到字面值关系 (RDF)
|
|||
|
|
|
|||
|
|
**实施**:
|
|||
|
|
核心数据结构: `node → edge → {node | literal}`
|
|||
|
|
在支持扩展的 SPO 操作的同时,保持与 RDF 标准的兼容性
|
|||
|
|
|
|||
|
|
## 基础 2:原生于 LLM 的知识图谱集成
|
|||
|
|
**决策**: 优化知识图谱结构和操作,以实现与 LLM 的交互
|
|||
|
|
|
|||
|
|
**理由**:
|
|||
|
|
主要用例涉及 LLM 与知识图谱的交互
|
|||
|
|
图技术选择必须优先考虑与 LLM 的兼容性,而不是其他考虑因素
|
|||
|
|
能够实现利用结构化知识的自然语言处理工作流程
|
|||
|
|
|
|||
|
|
**实施**:
|
|||
|
|
设计 LLM 可以有效推理的图模式
|
|||
|
|
针对常见的 LLM 交互模式进行优化
|
|||
|
|
|
|||
|
|
## 基础 3:基于嵌入的图导航
|
|||
|
|
**决策**: 通过嵌入将自然语言查询直接映射到图节点
|
|||
|
|
|
|||
|
|
**理由**:
|
|||
|
|
实现从 NLP 查询到图导航的最简单路径
|
|||
|
|
避免复杂的中间查询生成步骤
|
|||
|
|
提供图结构内部高效的语义搜索功能
|
|||
|
|
|
|||
|
|
**实施**:
|
|||
|
|
`NLP Query → Graph Embeddings → Graph Nodes`
|
|||
|
|
维护所有图实体的嵌入表示
|
|||
|
|
支持用于查询解析的直接语义相似性匹配
|
|||
|
|
|
|||
|
|
## 基础 4:分布式实体解析与确定性标识符
|
|||
|
|
**决策**: 支持并行知识提取,并使用确定性实体标识 (80% 规则)
|
|||
|
|
|
|||
|
|
**理由**:
|
|||
|
|
**理想**: 单进程提取,具有完整的状态可见性,可以实现完美的实体解析
|
|||
|
|
<<<<<<< HEAD
|
|||
|
|
**现实**: 可扩展性要求需要并行处理能力
|
|||
|
|
=======
|
|||
|
|
**现实**: 扩展性要求需要并行处理能力
|
|||
|
|
>>>>>>> 82edf2d (New md files from RunPod)
|
|||
|
|
**折衷**: 设计用于在分布式进程中实现确定性实体标识
|
|||
|
|
|
|||
|
|
**实施**:
|
|||
|
|
开发机制,以生成在不同知识提取器中保持一致且唯一的标识符
|
|||
|
|
在不同的进程中提到的相同实体必须解析为相同的标识符
|
|||
|
|
承认约 20% 的边缘情况可能需要替代处理模型
|
|||
|
|
设计用于处理复杂实体解析场景的后备机制
|
|||
|
|
|
|||
|
|
## 基础 5:事件驱动架构与发布-订阅
|
|||
|
|
<<<<<<< HEAD
|
|||
|
|
**决策**: 实施 pub-sub 消息系统,用于系统协调
|
|||
|
|
=======
|
|||
|
|
**决策**: 实现发布-订阅消息系统,用于系统协调
|
|||
|
|
>>>>>>> 82edf2d (New md files from RunPod)
|
|||
|
|
|
|||
|
|
**理由**:
|
|||
|
|
允许知识提取、存储和查询组件之间的松散耦合
|
|||
|
|
支持实时更新和跨系统的通知
|
|||
|
|
促进可扩展的分布式处理工作流程
|
|||
|
|
|
|||
|
|
**实施**:
|
|||
|
|
使用消息驱动的系统组件协调
|
|||
|
|
用于知识更新、提取完成和查询结果的事件流
|
|||
|
|
|
|||
|
|
## 基础 6:可重入代理通信
|
|||
|
|
**决策**: 支持用于基于代理的处理的可重入发布-订阅操作
|
|||
|
|
|
|||
|
|
**理由**:
|
|||
|
|
允许代理触发和响应彼此,从而实现复杂的代理工作流程
|
|||
|
|
支持复杂的多步骤知识处理管道
|
|||
|
|
允许递归和迭代处理模式
|
|||
|
|
|
|||
|
|
<<<<<<< HEAD
|
|||
|
|
**实施**:
|
|||
|
|
pub-sub 系统必须安全地处理可重入调用
|
|||
|
|
=======
|
|||
|
|
**实现**:
|
|||
|
|
发布-订阅系统必须安全地处理可重入调用
|
|||
|
|
>>>>>>> 82edf2d (New md files from RunPod)
|
|||
|
|
防止无限循环的代理协调机制
|
|||
|
|
支持代理工作流程编排
|
|||
|
|
|
|||
|
|
## 基础 7:列式数据存储集成
|
|||
|
|
**决策**: 确保查询与列式存储系统兼容
|
|||
|
|
|
|||
|
|
**理由**:
|
|||
|
|
能够对大型知识数据集执行高效的分析查询
|
|||
|
|
支持商业智能和报告用例
|
|||
|
|
桥接基于图的知识表示与传统的分析工作流程
|
|||
|
|
|
|||
|
|
**实施**:
|
|||
|
|
查询转换层:图查询 → 列式查询
|
|||
|
|
<<<<<<< HEAD
|
|||
|
|
支持图操作和分析工作负载的混合存储策略
|
|||
|
|
=======
|
|||
|
|
混合存储策略,支持图操作和分析工作负载
|
|||
|
|
>>>>>>> 82edf2d (New md files from RunPod)
|
|||
|
|
在这两种范例中保持查询性能
|
|||
|
|
|
|||
|
|
--
|
|||
|
|
|
|||
|
|
## 架构原则摘要
|
|||
|
|
|
|||
|
|
1. **灵活性至上**: SPO/RDF 模型提供最大的适应性
|
|||
|
|
2. **LLM 优化**: 所有设计决策都考虑 LLM 交互要求
|
|||
|
|
3. **语义效率**: 直接的嵌入到节点映射,以实现最佳的查询性能
|
|||
|
|
<<<<<<< HEAD
|
|||
|
|
4. **务实的扩展性**: 在完美准确性和实际的分布式处理之间取得平衡
|
|||
|
|
5. **事件驱动协调**: pub-sub 实现松散耦合和可扩展性
|
|||
|
|
=======
|
|||
|
|
4. **务实的扩展性**: 在完美的准确性与实际的分布式处理之间取得平衡
|
|||
|
|
5. **事件驱动协调**: 发布-订阅实现松散耦合和可扩展性
|
|||
|
|
>>>>>>> 82edf2d (New md files from RunPod)
|
|||
|
|
6. **代理友好**: 支持复杂的多代理处理工作流程
|
|||
|
|
7. **分析兼容性**: 桥接图和列式范例,以实现全面的查询
|
|||
|
|
|
|||
|
|
这些基础构建了一个知识图谱架构,该架构在理论严谨性和实际可扩展性之间取得了平衡,并针对 LLM 集成和分布式处理进行了优化。
|