什么是人工智能幻觉？为什么AI会编造答案？丨曼孚科技

当我们欣赏由AI生成的艺术作品时，往往会被其美感和独特性所吸引，它以令人惊叹的创造力和智能对话能力，在艺术、写作、音乐等领域展现出巨大潜力，仿佛具备了人类的创作天赋。

然而，近期的一些事件引发了人们对AI系统输出准确性和可信度方面的关注，即“它自信地给出了看似正确实则错误的答案。”

有用户反映ChatGPT给出的一份关于社会认知理论的顶级书单（10本）中，有4本书并不存在；谷歌技术与社会高级副总裁詹姆斯·曼尼卡在一个演示中向生成式AI询问通货膨胀问题时，AI推荐了5本不存在但听起来可能存在的书。

我们不得不面对一个问题：生成式AI的输出是否会存在虚假的“幻觉”？为什么会出现这样的事情？

什么是人工智能幻觉？

人工智能幻觉是一个比喻，用于描述AI作出的不符合其训练数据的自信断言，即使这些断言可能与实际情况有显著差异。

该词汇借鉴了人类心理学中对于感知错误的描述，强调AI在处理数据时可能出现的误读。如同人脑错将光影误认为实物的幻觉一样，AI也会在无意识中进行错误地预测。

语言模型擅长编造与现实无关的事实，但这并非出于它们的主观意图，因为AI无法主观感知，而是由算法层面决定。例如，AI在接收到与训练集中相似的输入数据时，会依据先前经验准确地输出，即便这些内容在新文本中不再适用。

过去数月里，像ChatGPT这样的聊天机器人已经吸引了全世界的注意力，但这也为社会治安带来一个隐患：生成式AI可以轻易地提供令人信服的虚假信息，使之成为不可靠的信息来源和潜在的诽谤策源地。

为什么AI会编造答案？

关于AI编造答案的问题探讨须从搜索引擎与聊天机器人的演进讲起，搜索引擎的主要代表为谷歌，聊天机器人的主要代表为Chatgpt。

在早期的互联网时代，搜索引擎主要起到了信息检索的作用，用户在搜索框输入关键词，谷歌反馈出相应的网页链接，这一过程是基于关键词与网页内容之间的匹配。

可以说，通过用广告“点缀”其搜索结果，谷歌建立了一个帝国，它的防线似乎坚不可摧，然而它有一个潜在的弱点：如果一个竞争对手能够给用户提供答案，而不是那些可能含有答案的网站链接，那么谷歌就遇到了大麻烦。

不幸的是，ChatGPT就是这样的对手。它是2022年11月由OpenAI推出的尖端聊天机器人。ChatGPT可以用清晰、简单的句子生成新内容，而不仅是一串互联网链接。它可以从头开始创作，包括商业计划书、年终总结、博客主题与代码编写。

但ChatGPT也有一个潜在弱点，它不能区分真假。原因有其二：

首先，ChatGPT是无意识的模仿者，并不理解自身在说什么，它只是从二手信息中拼凑出听起来非常权威的答案，输出读起来很好、听起来很聪明的文本，让用户认为它已经验证了所给出答案的准确性，但无法保证文本的完整性、准确性，甚至可能是一本正经的胡说八道。

其次，这些语言模型无一不是从开放网络上刮取的大量文本中训练出来的。GPT模型的原始数据集中并不存在任何东西能够将事实与虚构分开。当ChatGPT开始虚构时，其实是在找寻数据集中不存在的信息，并用完善的组句来填补空缺。

由于ChatGPT拥有惊人的数据量，所以它特别善于编造事情，而且它组织单词上下文的能力非常好，这有助于它将错误的信息无缝地放入文本中，生成让人信服的答案。

因此，现阶段的生成式AI还难以取代维基百科或传统搜索引擎。

原始材料的重要性——训练数据

本质上说，模型在学习和推理过程中的局限性、训练数据的不完备性或算法的不完善性是出现这种事件的根因。其中，原始材料的准确性尤其重要。

正如特德·姜在《ChatGPT是网上所有文本的模糊图像》中所写，“要构成一个值得信赖的搜索替代品，LLM（生成式大模型）需要在高质量的数据上进行训练。” 且如果一个模型只在非常有限的数据集上进行训练，它也无法准确推广至未见过的情境。此外，如果训练数据本身包含偏差或噪音，模型也可能学习到这些错误或偏见，并在未来的决策中复现它们。

因此，拥有一个既精确又全面的数据集对于打造高效的AI系统至关紧要。正出于这个理解，数据标注的重要性被推至前所未有的高度。

数据标注是将信息分类和标签化的过程，标注的数据可以帮助模型识别特定的模式和参数，从而在输入数据时更为精确和高效。这个过程包括识别图像中的对象、翻译语音或文本、以及标记文本数据中的情感或主题等。

高质量的数据标注对于创建准确的机器学习模型至关重要，一个经过仔细标注的数据集能够极大地提高模型性能，这是AI系统在输出信息时更为精准和高效的关键。

总结

在这个以数据驱动的时代里，AI生成的内容已经变得无处不在，人类享受AI带来的便捷同时，也必须保持警惕，对于AI呈现的信息持有审慎的态度。

AI模型像任何其他技术一样，不是完美无缺的，其性能更多地依赖于训练数据的质量及人类对其结果的持续验证。

随着生成式AI模型的进一步发展，AI系统将变得更加智能和准确，但在那一天到来之前，人类还需保持警惕，用批判性思维来评估AI提供的每一条信息。

可以说，AI的未来充满了无限可能，但是铸就这一未来的每一步都需要我们用智慧和责任心来共同塑造。

什么是人工智能幻觉？为什么AI会编造答案？丨曼孚科技

什么是人工智能幻觉？

为什么AI会编造答案？

原始材料的重要性——训练数据

总结

曼孚科技

引用和评论

谁来背锅？自动驾驶车祸背后的故事

Light·技术公益创造营，开营了！

1079支队伍齐聚、聚焦三大社会议题，第四届Light技术公益创造营圆满收官

PHPy 实践：从 Python 脚本到 PHP 应用的无缝衔接

详解Diffusion扩散模型：理论、架构与实现

数据集汇总｜18个电影/音乐数据集汇总，覆盖影片/歌曲推荐、电影评价、歌词识别、音乐流派······

开源内网穿透工具 frp 安装和使用教程