大型语言模型中的长形式事实性

主要观点:大型语言模型在回答开放式主题的事实性查询时常生成含事实错误的内容,为评估其在开放域的长文本事实性,先用 GPT - 4 生成包含数千个问题的 LongFact 提示集,再通过搜索增强事实评估器(SAFE)让 LLM 代理作为自动评估者,利用 LLM 分解长文本响应为单个事实并通过多步推理过程评估每个事实的准确性,还提出扩展 F1 分数作为长文本事实性的聚合指标,平衡响应中支持事实的百分比(精确率)和提供事实相对于表示用户偏好响应长度的超参数的百分比(召回率)。实证表明 LLM 代理能胜过众包人类标注者,在约 16k 个单个事实中与人类标注者一致 72%的时间,在 100 个随机分歧案例中获胜 76%的时间,且比人类标注者便宜 20 多倍,还在 13 种语言模型上对 LongFact 进行了基准测试,发现更大的语言模型通常具有更好的长文本事实性,LongFact、SAFE 和所有实验代码可在特定 https URL获取。
关键信息:作者包括 Jerry Wei 等多人;有提交历史,从 2024 年 3 月 27 日 v1 到 2024 年 11 月 7 日 v4;相关评论如 NeurIPS 2024、72 页等;学科包括 Computation and Language、Artificial Intelligence、Machine Learning;引用为[arXiv:2403.18802]等。
重要细节:用 GPT - 4 生成 LongFact 提示集;SAFE 评估方法及多步推理过程;不同版本的提交时间及大小;各模型在 LongFact 上的测试情况等。

阅读 32
0 条评论