为什么检测人工智能生成的文本如此困难

作者：Melissa Heikkilä
原文地址：为什么检测人工智能生成的文本如此困难？
【入群邀请】7个专业方向交流群+1个资料需求群

导读：自从ChatGPT推出以来，AI圈里已经掀起了很大的浪潮，各种使用ChatGPT的尝试层出不穷，与此同时，AI内容生成技术（AIGC）也引起广泛的关注，使用生成技术撰写文章、生成图片等等，以假乱真，但是如果发生不可控的技术泛滥，势必会对“原创”造成极大的冲击，并且出现各种乱象，而这篇文章，则是就针对人工智能生成内容检测工具的一个讨论，欢迎各位关注！

上周，OpenAI发布了一种可以检测其AI系统ChatGPT生成的文本的工具。但是，如果你是一位担心ChatGPT生成的论文即将泛滥的教师，请继续往下看。

该工具是OpenAI对教育工作者、记者和其他人在没有任何方法检测其生成的文本的情况下使用ChatGPT而引起的关注的回应。然而，这仍然是一项正在进行的工作，而且非常不可靠。OpenAI表示，其人工智能文本检测器正确识别出26%的人工智能文本“可能是人工智能写的”。

虽然OpenAI为了完善这个工具还有很多工作要做，但它能做到的程度有限。我们很大概率不可能找到一个能够100%确定地识别AI生成的文本的工具。不列颠哥伦比亚大学（University of British Columbia）负责自然语言处理和机器学习研究的教授穆罕默德·阿卜杜勒·马吉德（Muhammad Abdul Mageed）表示，很难检测人工智能生成的文本，因为人工智能语言模型的全部目的是生成流畅的、看起来像人的文本，而该模型是模仿人类创造的文本。

阿卜杜勒·马吉德补充道：“我们正在进行一场竞赛，要建立能够与最新、最强大的模型相匹配的检测方法。”。新的AI语言模型更强大，更擅长生成更流畅的语言，这很快使我们现有的检测工具包过时。

OpenAI通过创建一个类似于ChatGPT的全新AI语言模型来构建其检测器，该模型经过专门训练，可以检测类似于自己的模型的输出。尽管细节很少，但该公司显然用人工智能生成的文本和人工生成的文本的样本训练了模型，然后让它识别人工智能生成文本。

上个月，我写了另一种检测AI生成的文本的方法：水印（watermarks）。这些在人工智能生成的文本中充当一种秘密信号，允许计算机程序检测到它。

马里兰大学的研究人员开发了一种将水印应用于人工智能语言模型生成的文本的巧妙方法，并使其免费可用。这些水印可以让我们几乎完全确定地判断何时使用了人工智能生成的文本。

问题在于，这种方法要求AI公司从一开始就在聊天机器人中嵌入水印。OpenAI正在开发这些系统，但尚未在其任何产品中推出。为什么延迟？一个原因可能是，并不是希望人工智能生成的文本加水印。

将ChatGPT集成到产品中最有前景的方式之一是作为一种工具帮助人们编写电子邮件或作为文字处理器中的增强拼写检查器。这不完全是欺骗。但在所有人工智能生成的文本上加水印会自动标记这些输出，并可能导致错误指控。

OpenAI推出的人工智能文本检测器只是众多工具中的一个，未来我们可能不得不使用它们的组合来识别人工智能生成的文本。另一个名为GPTZero的新工具会测量文本段落的随机性。人工智能生成的文本使用了更多相同的单词，而人们则使用了更多的变体。Abdul Mageed表示，与医生的诊断一样，当使用AI检测工具时，获得第二甚至第三种意见是一个好主意。

ChatGPT带来的最大变化之一可能是我们评估书面文本的方式发生了变化。人工智能初创公司Lightning.AI的人工智能研究员塞巴斯蒂安·拉施卡（Sebastian Raschka）表示，未来，也许学生们不会再从头开始写所有的东西了，重点将放在提出原创想法上，因为原创性是受到其编程和训练集中的数据的约束。

Raschka说：“正确书写会更容易，但原创不会更容易。”。

新报告：工业设计和工程中的人工智能

生成式人工智能是今年最热门的技术，它正在改变整个行业，从新闻和药物设计到工业设计和工程。这些行业的头部企业保持领先将比以往任何时候都更重要。我们为您提供了保障。《麻省理工技术评论》（MIT Technology Review）的一份新研究报告强调了这种新技术在工业设计和工程中的机遇和潜在的问题。

该报告包括两个来自头部工业和工程公司的案例研究，这些公司已经将生成式人工智能应用于他们的工作，以及来自行业领导者的大量启示和最佳实践。它现在售价195美元。

深度学习

AI模型生成受版权保护的真人图像和照片

最新研究表明，Stable Diffusion等主流的图像生成模型可以被用来生成真实人物的可识别照片，这可能会威胁到他们的隐私。这项工作还表明，这些人工智能系统可以用来重现医学图像的完美副本，以及艺术家的版权作品。

为什么这很重要：这些人工智能模型在多大程度上从其数据库中记忆和回放图像，是人工智能公司和艺术家之间多次诉讼的根源。这一发现可能会强化艺术家的观点。从我这里了解更多信息。

人工智能模型漏洞：可悲的是，在加快发布新模型的过程中，人工智能开发人员往往忽视了隐私。这不仅仅是图像生成系统。当我问ChatGPT的前身GPT-3，它对我和《麻省理工技术评论》主编的了解时，我发现人工智能语言模型的疏漏有很多。结果很滑稽，令人无语。

Bits and Bytes

当我父亲生病时，我开始用谷歌搜索各种担心的问题，然后我就无法逃脱了。

我的同事泰特·瑞安·莫斯利（Tate Ryan Mosley）写了一篇关于悲观问题和死亡的不错的文章，以及她在互联网上使用的不好的内容推荐算法，这些算法只为提供更多关于悲观问题与死亡的内容。泰特花了几个月的时间请教专家，我们如何才能更好地控制恶意算法。他们的回答并不那么令人满意。（麻省理工学院技术评论）

谷歌已向一家人工智能初创公司投资3亿美元

这家科技巨头是最新加入生成式人工智能潮流的公司。它向人工智能初创公司Anthropic注入了资金，后者正在开发类似于ChatGPT的语言模型。这笔交易让谷歌获得该公司10%的股份，以换取运行大型人工智能模型所需的计算能力。（英国《金融时报》）

ChatGPT如何掀起一场AI竞赛

这是窥察OpenAI幕后的一个很好方式，以及他们为收集下一代AI语言模型GPT-4反馈，决定如何上线ChatGPT。聊天机器人的成功在OpenAI内部是一个“惊天动地的惊喜”。（《纽约时报》）

如果ChatGPT是一只宠物

认识CatGPT。坦率地说，对我来说唯一重要的AI聊天机器人。

1. 书籍推荐 - 《可解释机器学习》

为什么检测人工智能生成的文本如此困难

新报告：工业设计和工程中的人工智能

深度学习

Bits and Bytes

一点人工一点智能

引用和评论

《并联机器人刚度建模》

人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）

大模型中的Token究竟是什么？从原理到作用深度解析

Open WebUI：开源AI交互平台的全面解析

一文掌握 MCP 上下文协议：从理论到实践

人工智能与机器学习入门：决策树应用

MySQL × 向量数据库：大模型时代的黄金组合实战指南