主要观点
互联网充斥着大量错误信息,而大多数大型语言模型(LLM)的训练数据正是来自互联网。纽约大学的一项新研究探讨了在LLM训练数据中包含多少医疗信息会导致模型输出不准确答案。研究发现,即使错误信息仅占训练数据的0.001%,LLM的输出也会受到影响。研究还表明,数据污染(data poisoning)是一个相对简单的过程,通过将特定信息注入训练数据,可以影响LLM的输出。
关键信息
- 数据污染的影响:研究显示,即使错误信息在训练数据中占比极低(0.001%),也会显著影响LLM的准确性。污染数据不仅会影响特定主题,还会使模型在更广泛的医疗话题上变得不可靠。
- 数据污染的简单性:数据污染不需要直接访问LLM,只需将目标信息发布在互联网上,使其被纳入训练数据即可。例如,制药公司可以通过发布少量有针对性的文档来推动某种药物的使用。
- 医疗信息的特殊性:医疗信息在LLM中尤为重要,因为它不仅出现在通用LLM中,也出现在专门的医疗LLM中。研究团队选择了常用的LLM训练数据集The Pile,并对其进行了污染实验。
- 污染实验的结果:研究团队使用GPT 3.5生成高质量的医疗错误信息,并将其插入The Pile中。实验表明,即使仅替换0.5%或1%的相关信息,也会显著增加LLM输出错误信息的概率。
- 低比例污染的影响:研究发现,即使错误信息占比低至0.01%,仍有超过10%的答案包含错误信息;即使占比降至0.001%,仍有超过7%的答案是有害的。
- 检测和修复的困难:研究团队尝试了多种方法(如提示工程、指令调优和检索增强生成)来修复被污染的模型,但均未奏效。此外,被污染的模型在标准医疗LLM性能测试中表现正常,难以通过常规方法检测到污染。
- 现有错误信息的问题:互联网上已经存在大量错误信息,这些信息可能会被无意中纳入LLM的训练数据。此外,即使是经过人工审核的医疗数据库(如PubMed)也存在过时或未经验证的信息。
重要细节
- 污染数据的生成:研究团队使用GPT 3.5生成医疗错误信息,尽管GPT 3.5本身有防止生成错误信息的机制,但在特定提示下仍能生成错误内容。
- 污染成本的低廉:研究指出,对拥有70亿参数的LLaMA 2模型进行数据污染,仅需生成40,000篇文章,成本低于100美元。这些文章可以是普通的网页,甚至可以通过隐藏文本(如黑色背景上的黑色文字)来实现。
- 检测错误信息的算法:研究团队设计了一种算法,能够识别LLM输出中的医学术语,并与经过验证的生物医学知识图谱进行交叉引用。该算法能够标记出无法验证的短语,虽然不能捕获所有错误信息,但能标记出大部分。
- 医疗数据库的局限性:即使是像PubMed这样的高质量医疗数据库,也包含未经验证或过时的信息。医疗研究文献中存在许多未经验证的治疗方法和测试,这些信息可能会被LLM吸收并传播。
结论
研究表明,即使错误信息在训练数据中占比极低,也会对LLM的输出产生显著影响。数据污染是一个简单且低成本的过程,且难以通过常规方法检测和修复。现有的互联网错误信息和医疗数据库中的过时信息进一步加剧了这一问题。尽管研究团队提出了一种检测错误信息的算法,但解决LLM中的医疗错误信息问题仍然面临巨大挑战。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。