2025-04-24,由西安交通大学基于学术合作网络构建一种新的动态图数据集CoOAG,用于研究动态图中的节点分类问题。该数据集通过捕捉作者研究兴趣的动态变化,为动态图学习领域提供了新的研究方向和测试平台,特别是在标签受限的动态节点分类任务中具有重要意义。
一、研究背景
随着图结构数据在金融交易、学术合作、生物系统等多个领域的广泛应用,动态图中的节点分类问题逐渐成为研究热点。动态图能够更好地反映实体之间的关系和交互随时间的变化,但目前的研究多集中在静态图上,动态图节点分类的研究相对较少。
目前遇到困难和挑战:
1、动态标签获取困难 :在现实场景中,收集每个时间戳的动态标签成本高昂,且存在标签不确定性(如欺诈检测中的模糊或延迟标签),导致难以获得完整的动态标签序列。
2、数据集不足 :现有的动态图数据集大多提供较弱的动态标签,且缺乏对节点动态演变的有效捕捉,难以满足动态节点分类任务的需求。
3、模型泛化能力不足 :现有方法在动态图节点分类任务中,往往假设所有动态标签都已知,这与现实场景中仅能获得最终时间戳标签的情况不符,导致模型在实际应用中的泛化能力受限。
数据集地址:CoOAG|动态图学习数据集|节点分类数据集
二、让我们一起来看一下CoOAG
CoOAG(Collaboration of Open Academic Graph)是一个从学术合作网络中提取的动态图数据集,专门用于研究动态图中的节点分类问题,能够捕捉作者研究兴趣的动态变化。
CoOAG数据集基于微软学术图谱部分构建,涵盖了计算机科学领域的顶级会议论文。数据集中的节点代表作者,边代表作者之间的合作关系,边的特征由论文的元数据和摘要编码而成。节点标签表示作者的研究兴趣,分为计算机视觉、自然语言处理、机器人、数据挖掘/网络搜索和其他人工智能领域。
数据集构建:
1、数据来源 :从Open Academic Graph 2.1中提取与顶级AI会议相关的论文数据。
2、标签分类 :使用Qwen-Plus API和结构化提示模板对论文的研究领域进行分类,将作者的研究兴趣分为5个类别。
3、特征生成 :将论文的元数据和摘要通过all-MiniLM-L12-v2模型编码为边特征,节点特征则通过作者所涉及的所有论文特征的平均值得到。
4、时间戳处理 :根据会议提交截止日期确定边的时间戳,确保数据集的时间顺序性。
数据集特点:
1、动态性 :数据集能够捕捉作者研究兴趣的动态变化,反映了学术合作网络中研究兴趣的演变。
2、高质量 :通过严格的数据清洗和标签分类流程,确保数据集的准确性和一致性。
3、多类别标签 :包含5个研究兴趣类别,为多类别分类任务提供了丰富的标签信息。
数据集使用方法
CoOAG数据集适用于动态图节点分类任务,特别是在标签受限的情况下。研究人员可以利用该数据集训练和评估动态图模型,探索如何利用有限的最终时间戳标签来预测节点的动态变化。
基准测试总结
在CoOAG数据集上进行的基准测试表明,PTCL方法在动态节点分类任务中表现优异,平均准确率达到89.05%,相较于其他方法有显著提升。
一个金融系统的展示。该图表示一个动态金融系统,其中节点代表实体,如用户、支付卡和金融机构,而边代表交易关系。随着时间的推移,通过一系列交易跟踪用户行为,一些用户的标签(账户状态)最终可能被识别为欺诈。
PTCL的方法的概述:利用动态图骨干网络和解码器,进行链接预测和时间戳标签的细化。预热阶段的链接预测任务为后续的伪标签细化提供了基础,而时间课程学习策略则确保了伪标签的质量。
PTCL 由一个带有动态图主干和解码器的变分 EM 过程组成。
在预热阶段,动态图主干在链接预测任务上进行训练,其中动态图结构作为目标。预热后,在每个 M 步中,主干接收最终时间戳标签、伪标签和动态图结构作为输入,而解码器在 E 步中训练以细化伪标签。此外,时间课程学习策略根据伪标签与最终时间戳标签的时间接近程度优先考虑伪标签,以确保更高的训练质量。
在 Wikipedia、Reddit、Dsub、CoOAG 数据集上的性能比较。我们使用五个随机种子运行所有实验以确保一致的评估,并报告平均性能以及括号中的标准差。粗体表示最佳性能,下划线表示次佳。由于缺乏动态标签,Dsub 和 CoOAG 数据集无法应用 DLS 方法。TGN 由于其高空间成本,在 Dsub 上运行耗尽内存。
不同基线和 PTCL 的架构。“B”代表骨干网络,“D”代表解码器。
AUC 比较不同骨干在 Wikipedia 数据集上使用动态标签监督学习(DLS)和伪标签监督学习(PLS)的性能。
伪标签一致性直方图
AUC 比较了我们的时序课程学习与两种常用的选择更可靠伪标签的课程学习方法以及使用所有伪标签的朴素策略。CST 代表置信度分数阈值,EST 代表 softmax 轨迹熵。加粗表示最佳性能,下划线表示次佳性能。
5 个骨干网络的收敛曲线。星号标记( ⋆ )表示峰值性能;圆圈点( ∙ )表示超越基线。虚线表示基线 AUC。
三、展望CoOAG应用场景
比如:学术研究趋势分析
以前,研究人员想要分析学术研究趋势,只能靠手动翻阅大量的文献,从各种学术数据库里一点点收集数据。比如,研究自然语言处理(NLP)领域的趋势,得先在Web of Science或者Scopus里找相关论文,然后手动统计每个时间段的研究主题。这种方法不仅费时费力,而且数据更新慢,很难捕捉到最新的动态。比如,你可能发现某个研究方向在几年前很火,但现在已经冷门了,可你却没办法及时知道。
现在有了CoOAG数据集,一切都变得简单多了。
CoOAG数据集就像一个超级详细的“学术研究动态地图”,记录了从1993年到2015年作者研究兴趣的变化。比如,你想知道NLP领域的研究趋势,直接用CoOAG数据集就能看到。它不仅告诉你哪些研究方向现在热门,还能帮你预测未来可能会火的方向。 举个具体的例子,假设你是一个刚入门的博士生,想研究NLP领域。以前,你得花几个月时间翻阅文献,才能大概了解这个领域的研究方向。现在,你只需要用CoOAG数据集,通过一些简单的分析工具,就能快速看到:
1、过去几年,NLP领域从基础理论研究(如词嵌入)逐渐转向应用开发(如聊天机器人和机器翻译)。
2、最新的研究热点集中在多模态NLP(结合图像和文本)和低资源语言处理。
3、未来可能的趋势是将NLP与人工智能伦理和社会影响结合,比如研究如何防止聊天机器人产生有害内容。
有了这些信息,你就可以更有针对性地选择研究方向,避免走弯路。比如,你可以决定专注于多模态NLP,因为这是一个正在快速发展的方向,未来有很大的研究空间。
有了CoOAG数据集,研究人员再也不用像以前那样大海捞针了。它不仅能帮你快速了解研究领域的现状,还能帮你预测未来的发展方向,让你的研究更有前瞻性和针对性。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。