Graphusion:零样本知识图谱构建新框架,开启全局视角新时代
论文与代码
📖阅读时长:19分钟
🕙发布时间:2025-02-12
近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
摘要
本文介绍了Graphusion,一个基于大语言模型(LLM)的零样本知识图谱构建(KGC)框架,它能从自由文本构建科学知识图谱。同时还引入了TutorQA基准数据集,用于自然语言处理(NLP)教育场景中基于知识图谱的问答任务评估。Graphusion通过种子实体生成、候选三元组提取和知识图谱融合三个关键步骤,从全局视角构建知识图谱,解决了传统KGC方法的局限性。在多个实验任务中,Graphusion表现优异,证明了其有效性。
引言
许多基于LLM的知识图谱构建(KGC)框架在提取知识时,往往只关注单个句子或文档,缺乏将知识融合到全局知识图谱的过程。本文提出的Graphusion框架,旨在解决这一问题,实现从自由文本的零样本知识图谱构建。
Graphusion框架
问题定义
知识图谱(KG)被定义为一组三元组$KG = \{(h_i, r_i, t_i) | h_i, t_i \in E, r_i \in R, i = 1, 2, ... , n\}$,其中$E$是实体集,$R$是可能关系的集合,$n$是KG中三元组的总数。零样本KGC的任务是获取一组自由文本$T$,并生成一个跨越KG的三元组$(h, r, t)$列表。本文定义了7种关系类型:Prerequisite_of、Used_for、Compare、Conjunction、Hyponym_of、Evaluate_for和Part_of。
步骤1:种子实体生成
采用种子实体生成方法,利用BERTopic进行主题建模,确定每个主题的代表性实体,这些实体作为种子实体,记为$Q$。初始化的种子实体可确保实体提取的高相关性,为后续三元组提取提供精度。
步骤2:候选三元体提取
种子实体指导进行实体提取。首先让LLMs提取域内实体,然后确定这些实体与种子实体$q$之间的关系。接着,要求LLMs发现新的三元组,即使最初没有包含$q$。提取提示(Extraction Prompt)设计如下:
Given a context {context} and a query entity {query}, do the following:
1. Extract the query entity and in-domain entities from the context,
which should be fine-grained...
2. Determine the relations between the query entity and the extracted
entities, in a triplet format:(<head entity>, <relation>, <tail entity
>)...
{Relation Definition}
3. Please note some relations are strictly directional...
4. You can also extract triplets from the extracted entities, and the
query entity may not be necessary in the triplets.
处理完种子实体列表中的所有查询后,保存所有候选三元组,将LLM构建的零样本KG表示为$ZS - KG$。
知识图谱融合
上一步提取的三元组提供的是本地视图,可能存在关系冲突、多样或不正确的情况。融合步骤有助于调和冲突关系,整合不同或错误的关系,提供对实体对的全局理解。
对于每个查询实体$q$,从$ZS - KG$中查询,获取包含$q$的子图$LLM - KG = \{(h, r, t) \in ZS - KG | h = q或t = q\}$。如果有专家注释的KG $G_E$,也查询一个子图$E - G$。此外,从自由文本中对$q$进行动态检索,帮助LLMs解决冲突的三元组。
融合步骤侧重于三个部分:
- 实体合并:合并语义相似的实体,如NMT与神经机器翻译。
- 冲突解决:对于每个实体对,解决冲突并选择最佳关系。
新颖三元组推理:从背景文本中提出新的三元组。
融合提示符(Fusion Prompt)如下:Please fuse two sub-knowledge graphs about the entity: {entity}. Graph 1: {LLM-KG} Graph 2: {E-G}
- Union the entities and edges.
- If two entities are similar, or refer to the same entity, merge
them into one entity, keeping the one that is meaningful or specific. - Only one relation is allowed between two entities. If a conflict exists,
read the Once step 3 is done, consider every possible entity pair not covered in
step 2. For example, take an entity from Graph 1, and match it with a
entity from Graph 2. Then, please refer to
new triplets.
{background}
{Relation Definition}
实验
知识图谱构建
- 数据集:使用2017 - 2023年ACL会议的4605篇有效论文。
- 实施:在LLaMa3 - 70b、GPT - 3.5、GPT - 4和GPT - 4o这四种不同的LLMs上实现Graphusion。
- 基线:与局部图模型(GPT - 4o Local)进行比较,该模型相当于没有融合步骤(步骤3)的Graphusion模型。
- 结果:使用GPT - 4o的Graphusion在实体和关系评级方面性能最高。省略融合步骤时,性能从2.37显著下降到2.08,证明了融合步骤的关键作用。
- 案例研究:实体提取:GraphRAG有时会提取过于笼统的术语,如benchmark和methodology。
- 案例研究:融合:Graphusion的融合步骤能合并相似实体、解决关系冲突并推断新三元组,但在实体识别中可能输出不太准确的三元组。
链接预测
给定一个实体对$(A, B)$,任务是确定两个给定实体之间是否存在关系$r$。设计了LP Prompt来解决该任务,并在包含NLP、计算机视觉(CV)和生物信息学三个领域实体对和先决条件标签的科学基准LectureBankCD上进行全面评估。结果表明,LLM方法优于传统监督基线,说明LLMs在知识图谱构建,尤其是关系预测方面有更高质量的潜力。
TutorQA:科学知识图谱QA基准
本文介绍了TutorQA基准,这是一个专为科学KG QA设计的QA数据集,由六个类别组成,包含1200个经过人类专家验证的QA对,模拟课堂中常见问题。这些问题需要知识图谱推理、文本理解和问答能力。
任务
- 任务1:关系判断:评估给定三元组是否准确。
- 任务2:先决条件预测:帮助学生确定理解复杂目标主题所需先学习的关键实体。
- 任务3:路径搜索:帮助学生识别理解新目标实体所需的中间实体序列。
- 任务4:子图完成:通过识别子图中实体之间的隐藏关联扩展知识图谱。
- 任务5:相似实体:识别与中心思想相关的实体,加深理解和学习。
- 任务6:想法仓鼠:提示参与者将学习到的实体应用于现实世界,制定项目提案。
- 结果:使用Graphusion构建的KG的方法在任务1到6中相比基线有显著改进。
- 案例研究:任务2和任务3(实体计数):结果显示,没有KG检索信息的增强,GPT - 4o倾向于在生成的响应中提及更多可能不相关或广泛的实体。
- 案例研究:任务6(在答案中扩展相关实体):使用Graphusion构建的KG,模型能提供更全面的解决方案,引入来自恢复图形的其他实体。
结论
本文提出了Graphusion,通过种子实体生成、候选三元组提取和KG融合三个关键步骤,从自由文本构建科学知识图谱,解决了传统KGC方法的局限性。同时引入了新的基准数据集TutorQA,专为NLP教育场景中基于KG的QA而设计。
参考文献
- Graphusion: A RAG Framework for Knowledge Graph Construction with a Global Perspective by Yang et al. arXiv:2410.17600
BERTopic: Neural topic modeling with a class-based TF-IDF procedure. by Grootendorst. ArXiv abs/2203.05794 (2022)
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。