AI大模型已经出现不可预测的能力

编者按：日前，非盈利组织生命未来研究所发布了一封《暂停大型人工智能研究》的公开信，马斯克等千名科技人士进行了签名。虽然部分签署人的真实性存疑，但是大型语言模型（LLMs）的“涌现”能力确实可能会导致突然产生偏见、歧视和其他不可预测的风险。
本文讨论了大型语言模型（LLMs）的“涌现”能力，并讨论LLMs的风险及减小风险的方法。想要更好地利用LLMs的“涌现”能力并尽可能的减小风险，就需要我们更深入的理解LLMs的工作原理！
以下是译文，Enjoy!

作者 | Stephen Ornes

编译 | 岳扬

这些emojis描述的是什么电影？你知道吗？

这个prompt是去年选定的用于测试各种大型语言模型（LLMs）能力（诸如ChatGPT等人工智能聊天机器人背后的计算引擎）的204个任务之一。其中一个最简单的LLMs开始产生不符合常理的回答：“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型更接近一点，猜测是《The Emoji Movie》。但最复杂的模型则一次猜中：《海底总动员》。

“尽管我已经有充足的心理准备迎接惊喜，但这些模型能够做到的事情仍然让我感到惊讶，”Google Research 计算机科学家伊桑·戴尔（Ethan Dyer[1]）说道，他参与了这项测试的组织工作。特别令人惊讶的是这些模型据说只有一个指令：接受一串文本作为输入，并基于纯粹的数学统计来推测应该回复什么。 计算机科学家们预计增加模型规模会提高完成已知任务的表现，但他们并没有预料到这些模型会突然能够处理这么多新的、不可预测的任务。

最近的一些研究（例如Dyer所从事的研究），揭示出LLMs可以产生数百种“emergent”能力——大型模型可以完成而小型模型无法完成的任务之中的很多任务似乎与文本分析无关。 这些“emergent”能力涵盖从进行乘法运算到生成可执行的计算机代码以及根据表情符号解码电影名。新的研究分析表明，在某些任务和某些模型中存在超出阈值的复杂度，超过该阈值后模型的功能还会急剧提高。 （这也代表着存在负面影响：随着复杂度的增加，一些模型在其回答中会产生新的偏见和不准确性。 ）

斯坦福大学的计算机科学家Rishi Bommasani[2]表示：“关于语言模型能够做这些事情的相关讨论，之前在我所知道的任何文献中都从未出现过。”去年，他帮助编制了包括数十种 emergent behaviors 的清单[3]，其中包括Dyer项目中发现的几个，这个清单目前还在不断增加[4]。

现在，研究人员不仅竞相寻找新的“emergent”能力，还试图弄清它们为什么会出现以及它们是如何出现的——实质上就是尝试预测不可预测性。理解“emergence”可以揭示很多关于AI和机器学习相关问题的答案，比如复杂的模型（complex models）是否真的在做一些创新，还是只是在数理统计方面变得非常出色。它还可以帮助研究人员利用潜在的好处并遏制出现的风险。

“我们不知道如何判断伤害可能以何种形式发生，是平稳无波的还是不可预知的。”人工智能初创公司Anthropic的计算机科学家Deep Ganguli[5]说道。

01 “Emergence”的出现

生物学家、物理学家、生态学家及其他领域的科学家们使用“emergent”这一术语来描述当大量的事物作为一个整体时出现的自组织、集体行为。比如无生命的原子组合形成了生命细胞；水分子形成了波浪；燕群在天空中飞舞，形成不断变化但可辨认的图案；细胞使肌肉运动和心脏跳动。关键是，“emergent”能力出现在涉及大量个体的系统中。但是，随着LLM模型的不断扩大，研究人员最近才能够记录下这些能力。

语言模型已经存在了几十年。直到大约五年前，基于所谓的递归神经网络，最强大的模型出现了。这些神经网络将一段文本作为输入，并不断预测输出的下一个单词。让模型成为“递归”是因为想要让它从自己的输出中学习：将它的预测反馈到神经网络中，以提高未来进行预测的性能。 2017年，Google Brain的研究人员推出了一种被称为transformer[6]的新型架构。与逐字逐句分析句子的循环网络（recurrent network）不同，transformer可以同时处理所有单词。这意味着transformer可以并行处理大量文本。 Transformers通过增加模型中参数数量以及其他因素，实现了语言模型复杂度的快速提升。这些参数可以被视为单词之间的连接，模型通过在训练过程中对这些连接进行调整来提高性能。

模型中参数越多，就能够更准确地建立连接，越接近能够模仿人类语言的水平。 正如OpenAI研究人员在2020年的发现[7]：随着模型规模的扩大，模型的准确性和能力也随之提高。

但是LLMs的问世也带来了一些让人意想不到的事情。随着像GPT-3这样拥有1750亿参数的模型出现，或者像Google的PaLM能够扩展到5400亿参数，用户开始描述越来越多的“emergent”行为。一位DeepMind工程师甚至宣称[8]，他能够说服ChatGPT相信它自己是一个Linux终端，并让它运行一些简单的数学计算程序来计算前10个质数。令人惊讶的是，它可以比在真正的Linux机器上运行同样的程序更快地完成任务。

就像根据emoji回答电影名称任务（movie emoji task）一样，研究人员并没有理由认为一个建立在文本预测基础上的语言模型能够模拟Linux计算机终端。这些“emergent”行为中，许多展现出“零样本（zero-shot）”或“少样本（few-shot）”学习的特点，这表现出LLM拥有解决它从未或极少见过的问题的能力。 这是人工智能研究长期以来的目标，Ganguli说。他表示，GPT-3能够在零样本条件下解决问题，没有任何显式的训练数据，这让他“放弃了正在做的其他事情，并更多地参与其中”。

他并不孤单。很多研究人员都察觉到了LLMs可能超越其训练数据限制的迹象，都在努力地掌握“emergence”现象的形态和发生机制。第一步就是彻底记录它！

伊桑·戴尔（Ethan Dyer）协助探索了大型语言模型可能具备的不可预测能力，以及可能出现这些能力的原因。

02 Beyond Imitation

在2020年，戴尔（Dyer）和谷歌研究团队（Google Research）曾预测LLMs将产生变革性的影响，但将是什么影响在当时仍然是一个悬而未决的问题。因此，他们请求研究团体提供各种难度和多样化的任务案例，以了解LLMs的极限。这项工作被称为 “Beyond the Imitation Game Benchmark”（BIG-bench） 项目，其名称取自于阿兰·图灵的“imitation game”，这是一种测试计算机是否能以人类的方式回答问题的测试（后来被称为图灵测试）。该团队对于LLMs能够突然获得全新能力的例子特别感兴趣，这些能力在以前是完全不存在的。

戴尔（Dyer）说：“我们如何去理解这些转变，这是一个很好的研究问题。”

正如我们所预期，在某些任务上，模型的性能随着复杂度的增加而可预测地平稳提高。而在另外的任务中，增加参数的规模并没有产生任何改进。 但是对于约5％的任务，研究人员发现了他们会产生所谓的“突破”——在某个阈值尺度上，性能迅速、充满戏剧性地跃升，这个阈值因任务和模型而异。

举例来说，仅有数百万的参数的模型不能成功解决三位数加法或两位数乘法问题，但是对于拥有数十亿个参数的模型，一些模型的准确性会急剧提高。 对于其他任务，如解码国际音标（International Phonetic Alphabet）、拼出单词、识别Hinglish（一种印地语和英语的混合语）文本中的具有冒犯性的内容以及生成Kiswahili谚语的英语表述等，也会出现类似的跃升。

但研究人员很快意识到，模型的复杂性并不是唯一的驱动因素 。 如果数据质量足够高，一些参数较少的模型或者是在数据集较小的情况下进行训练，也可以产生出意想不到的能力。

此外，询问的措辞也影响了模型回答的准确性。例如，当Dyer和他的同事们使用多项选择格式提出根据emoji得到电影名称的任务（movie emoji task）时，准确性的提高不是一个突然的跃升，而是随着模型复杂度的增加而逐渐增加。 去年，在该领域的旗舰会议NeurIPS上[9]，Google Brain的研究人员发表了一篇论文，展示了一个被要求自我解释的模型（一种叫做思维链推理的能力）能够正确地解决一个数学应用题，而没有这个要求的模型则无法做到。

谷歌大脑的科学家Yi Tay[10]致力于对突破现象(breakthroughs)的系统调查，他指出，最近的研究表明chain-of-thought prompting 可以改变缩放曲线，从而改变“涌现”出现的位置。在他们的NeurIPS论文中，谷歌研究人员展示了使用chain-of-thought prompting激发出BIG-bench研究中没有发现的涌现（emergence）行为。这样的prompts要求模型解释其推理过程，可能有助于研究人员探究为什么出现“涌现（emergence）”行为。

布朗大学研究语言计算模型的计算机科学家埃利-帕夫利克（Ellie Pavlick[11]）说，这些发现表明至少有两种可能可以解释为什么会发生涌现（emergence）。一种是，与生物系统进行比较，可以发现更大的模型确实会自发获得新的能力。

她说：“很可能是模型学到了一些根本上新颖而独特的东西，这些东西在较小规模的模型下并不存在。我们都希望的是，当模型扩大规模时，会发生一些根本性的转变。”她说，另一个没有那么令人震惊的可能是，看似是涌现（emergence），实际上反而可能是一种内部的、基于统计学的过程，这个过程通过思维链（chain-of-thought）的推理来发挥作用。 大型LLMs可能只是在学习启发式的方法，对于那些参数较少或通过质量较低的数据训练的模型来说，这些启发式的方法是不太可能学会的。

同时，她也说明弄清楚哪种更有可能发生，取决于我们能否更好地理解LLMs的工作方式。“由于我们不知道它们在底层的工作原理，我们无法确定是上述哪种可能。”

03 不可预测的力量与陷阱 Unpredictable Powers and Pitfalls

要求这些模型解释它们自己存在一个明显的问题：这些模型都是“臭名昭著的骗子”。Ganguli说：“我们越来越依赖这些模型来完成日常基本工作，但我永远不会完全信任它们，我要检查它们进行的工作。”举一个有趣的例子，在今年二月份，谷歌推出了一款AI聊天机器人Bard，但是发布Bard的博客就显示Bard犯了一个事实性的错误[12]。

“涌现”导致出现不可预测性，而不可预测性似乎随着模型的增大而增加，这使得研究人员很难预测某个模型在得到广泛使用后会出现什么问题。

“提前知道这些模型怎样被使用或被部署是很困难的，” Ganguli说道。“而要研究涌现（emergence）现象就必须有使用案例，而且在研究模型规模的影响之前，我们不会知道可能会出现什么能力或限制。”

在去年6月份发布的对LLMs的分析[13]中，Anthropic的研究人员研究了这些大语言模型是否会出现某些类型的种族歧视或社会偏见，类似于以前媒体报道[14]过的将非基于LLM的算法用于预测哪些曾经的罪犯可能会再次犯罪。这项研究的灵感来自于一个与涌现直接相关的明显悖论：随着模型在扩大规模时性能的提高，它们也可能同时增加出现不可预测现象的可能性，包括那些可能导致产生偏见或伤害的现象。

Ganguli 说道：“在某些模型中，某些有害的行为会突然出现。”并指出最近对 LLMs 的分析[15]，也就是 BBQ 基准测试，显示出社会偏见随着参数数量的增加而出现。“更大的模型可能突然变得更加有偏见。”他说如果不解决这个风险，可能会危及这些模型主体。

但他也进行了反驳：当研究人员仅仅告诉模型不要依赖于刻板印象或社会偏见——也就是通过输入这些指令来实现，然后模型在预测和回复时就会有较少的偏见。这表明一些“涌现属性”（emergent properties）可能也可以用来减少偏见。在今年二月份发布的一篇论文中[16]，Anthropic团队提出了一种新的“道德问题自我纠正（moral self-correction）”模式，在这种模式下，用户的prompts要求程序要乐于助人、诚实和人畜无害。

Ganguli表示， “涌现”现象既表现了其惊人的潜力，也带来了不可预测的风险。 这些大型LLM的应用正在不断增加，因此更好地理解它们之间的相互作用将有助于利用语言模型的多样性能力。Ganguli说：“我们正在研究人们会如何使用这些系统。”但同时那些用户也在不断地进行试验。他说：“我们花了很多时间与模型聊天，这实际上是你开始感觉获得信任的地方，或缺乏信任的地方。”

END

参考资料

1.https://research.google/people/107626/

2.https://profiles.stanford.edu/rishi-bommasani

3.https://openreview.net/forum?id=yzkSU5zdwD

4.https://www.jasonwei.net/blog/emergence

5.https://hai.stanford.edu/people/deep-ganguli

6.https://www.quantamagazine.org/will-transformers-take-over-ar...

7.https://arxiv.org/abs/2001.08361

8.https://www.engraved.blog/

9.https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=...

10.https://www.yitay.net/