美国国家标准与技术研究院(NIST)启动生成式AI评估计划
美国国家标准与技术研究院(NIST)推出了一个由国际研究社区开发的生成式AI公开评估计划。该试点项目主要关注文本到文本(T2T)和文本到图像(T2I)的生成式AI技术,旨在通过多模态真实性检测、基准数据集创建、比较分析及虚假信息源检测等方式,评估和了解生成式AI系统的行为。第一轮提交截止日期为8月。
评估目标与任务
该计划的核心目标是回答以下问题:“人类生成的内容与合成内容有何不同?”以及“用户如何区分两者?”为此,参与者可以选择作为生成器团队、鉴别器团队或两者兼备。生成器团队的任务是生成尽可能接近人类创作的合成内容,而鉴别器团队的任务是检测生成式AI(如大型语言模型和深度伪造工具)创建的合成内容。
文本到文本鉴别器(T2T-D)任务
T2T-D任务要求检测目标摘要是否由生成式AI生成。每个试验包含一个摘要,T2T-D检测系统需输出一个置信度评分,评分越高,摘要越可能由基于大型语言模型的AI生成。评估性能的主要指标是接收者操作特征曲线下面积(AUC)。
文本到文本生成器(T2T-G)任务
T2T-G任务要求基于一个“主题”和一组目标文档(约25篇)自动生成高质量的摘要。摘要需满足主题陈述中的信息需求,目标读者为信息分析师,用于辅助决策。生成器需遵守以下规则:
- 文档处理和摘要生成必须全自动完成。
- 摘要不得超过250个单词(以空格分隔的标记)。
- 超过字数限制的摘要将被截断。
- 不鼓励生成过短的摘要。
- 仅允许纯文本格式,不支持特定格式。
测试数据与规则
生成器团队的测试数据包括约45个主题,生成的摘要将作为鉴别器团队的测试数据。摘要的评估标准是区分AI生成摘要与人类生成摘要的难易程度。参与者不得使用测试数据集进行训练、建模或调优算法。所有机器学习或统计分析算法必须在测试数据上运行前完成训练和调优。每位参与者每24小时只能提交一次系统输出进行评估。
计划时间表
该试点项目主要关注文本到文本任务,将持续至2024年。平台支持多模态和技术,面向学术界、工业界及其他研究实验室的团队开放。感兴趣的参与者可在2025年5月前通过计划网站注册。测试阶段分别安排在6月、9月和11月。评估将于2025年1月结束,结果于2025年2月公布,并计划于2025年3月举办生成式AI评估研讨会。
其他相关竞赛
除NIST的计划外,其他类似竞赛包括:
- 谷歌组织的生成式AI黑客马拉松。
- 英伟达提出的RTX开发者挑战赛。
- 哈佛成员组织的生成式AI竞赛。
- 维也纳大学支持的AI for Life Sciences竞赛。
这些竞赛和评估计划共同推动了生成式AI技术的发展和应用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。