Graphusion：零样本知识图谱构建新框架，开启全局视角新时代

论文与代码

论文：https://arxiv.org/abs/2410.17600
代码：https://anonymous.4open.science/r/CGPrompt-C9C7/

📖阅读时长：19分钟

🕙发布时间：2025-02-12

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

摘要

本文介绍了Graphusion，一个基于大语言模型（LLM）的零样本知识图谱构建（KGC）框架，它能从自由文本构建科学知识图谱。同时还引入了TutorQA基准数据集，用于自然语言处理（NLP）教育场景中基于知识图谱的问答任务评估。Graphusion通过种子实体生成、候选三元组提取和知识图谱融合三个关键步骤，从全局视角构建知识图谱，解决了传统KGC方法的局限性。在多个实验任务中，Graphusion表现优异，证明了其有效性。

引言

许多基于LLM的知识图谱构建（KGC）框架在提取知识时，往往只关注单个句子或文档，缺乏将知识融合到全局知识图谱的过程。本文提出的Graphusion框架，旨在解决这一问题，实现从自由文本的零样本知识图谱构建。

Graphusion框架

问题定义

知识图谱（KG）被定义为一组三元组$KG = \{(h_i, r_i, t_i) | h_i, t_i \in E, r_i \in R, i = 1, 2, ... , n\}$，其中$E$是实体集，$R$是可能关系的集合，$n$是KG中三元组的总数。零样本KGC的任务是获取一组自由文本$T$，并生成一个跨越KG的三元组$(h, r, t)$列表。本文定义了7种关系类型：Prerequisite_of、Used_for、Compare、Conjunction、Hyponym_of、Evaluate_for和Part_of。

步骤1：种子实体生成

采用种子实体生成方法，利用BERTopic进行主题建模，确定每个主题的代表性实体，这些实体作为种子实体，记为$Q$。初始化的种子实体可确保实体提取的高相关性，为后续三元组提取提供精度。

步骤2：候选三元体提取

种子实体指导进行实体提取。首先让LLMs提取域内实体，然后确定这些实体与种子实体$q$之间的关系。接着，要求LLMs发现新的三元组，即使最初没有包含$q$。提取提示（Extraction Prompt）设计如下：

Given a context {context} and a query entity {query}, do the following:
1. Extract the query entity and in-domain entities from the context,
which should be fine-grained...
2. Determine the relations between the query entity and the extracted
entities, in a triplet format:(<head entity>, <relation>, <tail entity
>)...
{Relation Definition}
3. Please note some relations are strictly directional...
4. You can also extract triplets from the extracted entities, and the
query entity may not be necessary in the triplets.

处理完种子实体列表中的所有查询后，保存所有候选三元组，将LLM构建的零样本KG表示为$ZS - KG$。

知识图谱融合

上一步提取的三元组提供的是本地视图，可能存在关系冲突、多样或不正确的情况。融合步骤有助于调和冲突关系，整合不同或错误的关系，提供对实体对的全局理解。
对于每个查询实体$q$，从$ZS - KG$中查询，获取包含$q$的子图$LLM - KG = \{(h, r, t) \in ZS - KG | h = q或t = q\}$。如果有专家注释的KG $G_E$，也查询一个子图$E - G$。此外，从自由文本中对$q$进行动态检索，帮助LLMs解决冲突的三元组。
融合步骤侧重于三个部分：

实体合并：合并语义相似的实体，如NMT与神经机器翻译。
冲突解决：对于每个实体对，解决冲突并选择最佳关系。
新颖三元组推理：从背景文本中提出新的三元组。
融合提示符（Fusion Prompt）如下：
```
Please fuse two sub-knowledge graphs about the entity: {entity}.
Graph 1: {LLM-KG}
Graph 2: {E-G}
```
Union the entities and edges.
If two entities are similar, or refer to the same entity, merge
them into one entity, keeping the one that is meaningful or specific.
Only one relation is allowed between two entities. If a conflict exists,
read the
Once step 3 is done, consider every possible entity pair not covered in
step 2. For example, take an entity from Graph 1, and match it with a
entity from Graph 2. Then, please refer to
new triplets.
{background}
{Relation Definition}

实验

知识图谱构建

数据集：使用2017 - 2023年ACL会议的4605篇有效论文。
实施：在LLaMa3 - 70b、GPT - 3.5、GPT - 4和GPT - 4o这四种不同的LLMs上实现Graphusion。
基线：与局部图模型（GPT - 4o Local）进行比较，该模型相当于没有融合步骤（步骤3）的Graphusion模型。
结果：使用GPT - 4o的Graphusion在实体和关系评级方面性能最高。省略融合步骤时，性能从2.37显著下降到2.08，证明了融合步骤的关键作用。

案例研究：实体提取：GraphRAG有时会提取过于笼统的术语，如benchmark和methodology。

案例研究：融合：Graphusion的融合步骤能合并相似实体、解决关系冲突并推断新三元组，但在实体识别中可能输出不太准确的三元组。

链接预测

给定一个实体对$(A, B)$，任务是确定两个给定实体之间是否存在关系$r$。设计了LP Prompt来解决该任务，并在包含NLP、计算机视觉（CV）和生物信息学三个领域实体对和先决条件标签的科学基准LectureBankCD上进行全面评估。结果表明，LLM方法优于传统监督基线，说明LLMs在知识图谱构建，尤其是关系预测方面有更高质量的潜力。

TutorQA：科学知识图谱QA基准

本文介绍了TutorQA基准，这是一个专为科学KG QA设计的QA数据集，由六个类别组成，包含1200个经过人类专家验证的QA对，模拟课堂中常见问题。这些问题需要知识图谱推理、文本理解和问答能力。

任务
- 任务1：关系判断：评估给定三元组是否准确。
- 任务2：先决条件预测：帮助学生确定理解复杂目标主题所需先学习的关键实体。
- 任务3：路径搜索：帮助学生识别理解新目标实体所需的中间实体序列。
- 任务4：子图完成：通过识别子图中实体之间的隐藏关联扩展知识图谱。
- 任务5：相似实体：识别与中心思想相关的实体，加深理解和学习。
- 任务6：想法仓鼠：提示参与者将学习到的实体应用于现实世界，制定项目提案。
结果：使用Graphusion构建的KG的方法在任务1到6中相比基线有显著改进。

案例研究：任务2和任务3（实体计数）：结果显示，没有KG检索信息的增强，GPT - 4o倾向于在生成的响应中提及更多可能不相关或广泛的实体。

案例研究：任务6（在答案中扩展相关实体）：使用Graphusion构建的KG，模型能提供更全面的解决方案，引入来自恢复图形的其他实体。

结论

本文提出了Graphusion，通过种子实体生成、候选三元组提取和KG融合三个关键步骤，从自由文本构建科学知识图谱，解决了传统KGC方法的局限性。同时引入了新的基准数据集TutorQA，专为NLP教育场景中基于KG的QA而设计。

参考文献

Graphusion: A RAG Framework for Knowledge Graph Construction with a Global Perspective by Yang et al. arXiv:2410.17600
BERTopic: Neural topic modeling with a class-based TF-IDF procedure. by Grootendorst. ArXiv abs/2203.05794 (2022)
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的？背后的数学原理
 2. 微调 DeepSeek LLM：使用监督微调（SFT）与 Hugging Face 数据
 3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1：了解GRPO和多阶段训练
 5. 深度探索：DeepSeek-R1 如何从零开始训练
 6. DeepSeek 发布 Janus Pro 7B 多模态模型，免费又强大！

本文由mdnice多平台发布

Graphusion：零样本知识图谱构建新框架，开启全局视角新时代