从制造者那里了解到ChatGPT是如何建立的内部故事

微信搜索【大迁世界】, 我会第一时间和你分享前端行业趋势，学习途径等等。
本文 GitHub https://github.com/qq449245884/xiaozhi 已收录，有一线大厂面试完整考点、资料以及我的系列文章。

独家对话，带您深入探访一场文化现象的幕后
作者：Will Douglas Heaven

2022年11月底，OpenAI在没有任何宣传的情况下发布了ChatGPT，这家总部位于旧金山的人工智能公司对此并无太多期望。当然，OpenAI内部的人也没有准备好迎接病毒式的超级热门。自那时以来，该公司一直在努力迎头赶上，并努力利用这一成功。

OpenAI的政策工作者Sandhini Agarwal表示，公司内部将其视为“研究预览”，这是对两年前技术的更加成熟的版本，更重要的是，它试图通过收集公众的反馈来消除其中的一些缺陷。在OpenAI工作的科学家Liam Fedus表示：“我们不想把它吹嘘成一个重大的基本进展。”

为了了解这个聊天机器人背后的内幕故事——它是如何制作的，自发布以来OpenAI如何更新它，以及其制造者对其成功的看法——我与四位帮助构建这个成为有史以来最受欢迎的互联网应用之一的人交谈。除了Agarwal和Fedus，我还与OpenAI的联合创始人John Schulman和OpenAI对齐团队的负责人Jan Leike交谈，该团队致力于解决让AI按照用户的意愿去做事（而不是别的）的问题。

我得出的结论是，OpenAI对其研究预览的成功仍然感到困惑，但已抓住机会推动这项技术的发展，观察数百万人如何使用它，并努力解决出现的最严重问题。

自11月以来，OpenAI已经多次更新了ChatGPT。研究人员正在使用一种名为对抗性训练的技术来阻止ChatGPT让用户诱导它表现恶劣（称为越狱）。这项工作让多个聊天机器人互相对抗：一个聊天机器人充当对手并通过生成文本攻击另一个聊天机器人，迫使其突破通常的约束并产生不需要的回应。成功的攻击将被添加到ChatGPT的训练数据中，希望它学会忽略它们。

OpenAI与微软签署了一项数十亿美元的协议，并宣布与全球管理咨询公司贝恩结盟。贝恩计划在其客户（包括可口可乐公司）的营销活动中使用OpenAI的生成式AI模型1[3]。在OpenAI之外，关于ChatGPT的热议引发了全球大型语言模型的又一次热潮，各地的公司和投资者纷纷加入。

短短三个月内，这引起了很大的关注。ChatGPT从何而来？OpenAI采取了哪些措施确保产品发布前做好准备？他们接下来会走向哪里？

Jan Leike：实话说，这让我们有点不知所措。我们感到惊讶，我们一直在努力迎头赶上。

John Schulman：发布之后的几天，我一直在密切关注Twitter，那段时间推特上充斥着ChatGPT截图。我原以为它会很符合人们的直觉，并会获得一定的关注，但我没料到它会达到如此广泛的主流普及度。

Sandhini Agarwal：我认为我们都没有料到人们会如此热衷于使用它。我们如此专注于这些模型，以至于有时忘记了它们对外界来说是多么惊人。

Liam Fedus：我们确实对它受到的热烈欢迎感到惊讶。之前有很多次通用聊天机器人的尝试，我知道我们面临的挑战不小。然而，我们的私人测试让我们相信，我们可能真的做出了一款人们喜欢的产品。

Jan Leike：我想更好地了解驱动这一切的原因——推动其病毒式传播的原因。说实话，我们不了解。我们不知道。

团队的困惑部分源于ChatGPT内部的大部分技术并不是新的。ChatGPT是GPT-3.5的一个优化版本，而GPT-3.5是OpenAI在发布聊天机器人之前几个月发布的大型语言模型家族。GPT-3.5本身是2020年出现的GPT-3的更新版本1。OpenAI通过将这些模型作为应用程序编程接口（API）提供在其网站上，让其他软件开发人员可以轻松地将模型嵌入到他们自己的代码中。2022年1月，OpenAI还发布了一种名为InstructGPT的GPT-3.5的优化版本。但是这些先前的技术版本都没有向公众推广。

Liam Fedus表示，ChatGPT模型是从与InstructGPT相同的语言模型中微调而来的，他们使用了类似的微调方法。他们添加了一些对话数据并对训练过程进行了调整，因此不希望将其过度宣传为重大的基本进步。事实证明，对话数据对ChatGPT产生了很大的积极影响。

John Schulman表示，尽管从标准基准来评估这些模型的原始技术能力并没有实质性的差异，但ChatGPT更易于访问和使用。

Jan Leike解释说，从某种意义上说，ChatGPT可以被理解为我们已经有的AI系统的一个版本。它并不比以前的模型具有更强大的功能。在ChatGPT问世前的一年里，相同的基本模型已经在API上可用。另一方面，他们使其更符合人们想要用它做的事情。它以对话的方式与您交流，易于在聊天界面中访问，努力提供帮助。这是令人惊叹的进步，人们正在意识到这一点。

John Schulman指出，ChatGPT更容易推断出用户的意图，而且用户可以通过反复对话来获得他们想要的内容。

ChatGPT 的训练方式与 InstructGPT 非常相似，采用了一种称为基于人类反馈的强化学习（RLHF）的技术。这是 ChatGPT 的秘密武器。基本思路是采用一个倾向于随意输出内容的大型语言模型——在这种情况下是 GPT-3.5——并通过教它人类用户实际更喜欢的回应类型来进行调优。

Jan Leike：我们让一大群人阅读 ChatGPT 的提示和回应，然后说出哪个回应比另一个回应更可取。所有这些数据随后合并到一个训练运行中。很多内容与我们在 InstructGPT 中做的事情相同。你希望它能提供帮助，要真实，要无毒。然后还有一些特定于产生对话和成为助手的事情：比如，如果用户的查询不清楚，它应该提出后续问题。它还应该澄清自己是一个 AI 系统。它不应该假设自己没有的身份，不应该声称拥有它所没有的能力，当用户要求它执行不应该执行的任务时，它必须写出拒绝信息。在这次培训中出现的一句话是：“作为一个由 OpenAI 训练的语言模型……”这并非是故意放进去的，但它是人类评估者高度评价的事物之一。

Sandhini Agarwal：是的，我认为这就是发生的事情。人类评估者必须根据各种标准对模型进行排名，比如真实性。但是他们也开始更喜欢他们认为是良好实践的事物，比如不假装是你不是的东西。

由于 ChatGPT 是使用与 OpenAI 之前使用的相同技术构建的，因此在准备将此模型发布给公众时，团队并未采取任何不同的做法。他们认为之前模型的标准已经足够了。

Sandhini Agarwal：在准备发布时，我们并没有将此模型视为一个全新的风险。GPT-3.5 已经在世界上存在，我们知道它已经足够安全。通过 ChatGPT 对人类偏好的培训，模型自动学会了拒绝行为，拒绝了很多请求。

Jan Leike：我们确实为 ChatGPT 进行了一些额外的“红队”测试，OpenAI 的每个人都坐下来尝试破解模型。我们还有外部团队做同样的事情。我们还有一个早期访问计划，信任的用户会提供反馈。

Sandhini Agarwal：我们确实发现它产生了一些不需要的输出，但这些都是 GPT-3.5 也会产生的东西。因此在风险方面，作为一个研究预览——因为这是它最初的目的——感觉还不错。

John Schulman：你不能等到你的系统完美无缺才发布。我们已经对早期版本进行了几个月的测试，测试人员对产品给予了积极的评价。我们最大的担忧是关于事实性的问题，因为模型喜欢捏造事实。但 InstructGPT 和其他大型语言模型已经在那里了，所以我们认为，只要 ChatGPT 在事实性和其他安全问题上优于那些模型，它就应该可以使用。在发布前，我们确认了根据我们有限的评估，这些模型似乎比其他模型在事实性和安全性方面更强一些，所以我们决定继续发布。

自 ChatGPT 发布以来，OpenAI 一直在观察人们如何使用它，这是第一次看到一款大型语言模型在数千万可能试图测试其极限和发现其缺陷的用户手中如何表现。团队试图关注 ChatGPT 产生的最具问题性的例子——从关于神对强奸神父之爱的歌曲到窃取信用卡号的恶意代码——并用它们来约束模型的未来版本。

Sandhini Agarwal：我们有很多下一步要做的事情。我确实认为 ChatGPT 的病毒式传播使我们知道的很多问题变得非常突出，并变得非常关键——这些都是我们希望尽快解决的问题。比如，我们知道模型仍然存在很大的偏见。是的，ChatGPT 很擅长拒绝不良请求，但编写提示让模型不拒绝我们希望它拒绝的内容也相当容易。

Liam Fedus：看到用户多样化和富有创意的应用令人振奋，但我们始终专注于需要改进的领域。我们认为通过部署、获取反馈和优化的迭代过程，我们可以生产出最符合需求和最有能力的技术。随着我们的技术不断发展，新问题不可避免地会出现。

Sandhini Agarwal：发布后的几周里，我们查看了一些人们发现的最糟糕的例子，这些都是人们在现实中看到的最糟糕的事情。我们对这些例子进行了评估，讨论了如何解决这些问题。

Jan Leike：有时候是因为在 Twitter 上病毒式传播的内容，但我们也有一些人悄悄地与我们取得联系。

Sandhini Agarwal：我们发现的很多问题都是越狱行为，这绝对是我们需要解决的问题。但由于用户必须尝试这些复杂的方法来让模型说出一些不好的东西，这并不是我们完全忽视了的问题，或者对我们来说非常令人惊讶的事情。然而，我们现在正在积极解决这个问题。当我们发现越狱行为时，我们会将它们添加到我们的训练和测试数据中。我们看到的所有数据都会输入到未来的模型中。

Jan Leike：每次我们有了更好的模型，我们都希望将其投放出去并进行测试。我们非常乐观地认为，一些针对性的对抗性训练可以大大改善越狱问题。尽管不清楚这些问题是否会完全消失，但我们认为我们可以使越狱行为变得更加困难。再次强调，在发布之前，我们并不是不知道越狱是可能的。我认为，在部署这些系统后，真正预测这些系统会出现的安全问题非常困难。所以我们非常重视监测人们使用系统的目的，观察发生了什么，然后对此做出反应。这并不是说我们不应该在预见到安全问题时主动进行缓解。但确实，预见系统进入现实世界时实际发生的一切非常困难。

1月份，微软发布了名为 Bing Chat 的搜索聊天机器人，许多人猜测这是 OpenAI 尚未正式宣布的 GPT-4 的一个版本。（OpenAI 表示：“Bing 是由微软专门为搜索定制的我们的下一代模型之一驱动的。它结合了 ChatGPT 和 GPT-3.5 的技术进步。”）技术巨头们为了保护数十亿美元的声誉而使用聊天机器人，这为负责构建底层模型的人们带来了新的挑战。

Sandhini Agarwal：现在的风险肯定比六个月前要高得多，但仍然低于一年后可能的水平。很明显，这些模型的使用环境对它们的重要性非常大。就像 Google 和 Microsoft，即使是一件事实不清的事情，也因为它们被认为是搜索引擎而成为了一个大问题。用于搜索等场景的大型语言模型所需的行为与仅仅是一个趣味聊天机器人的要求非常不同。我们需要弄清楚如何在所有这些不同的用途之间找到平衡，为人们创造出在一系列场景中有用的东西，其中所需的行为可能真的有很大差别。这增加了更多的压力。因为我们现在知道，我们正在构建这些模型，以便它们可以变成产品。ChatGPT 现在是一个产品，因为我们有了 API。我们正在构建这种通用技术，我们需要确保它在所有方面都能运作良好。这是我们目前面临的关键挑战之一。

John Schulman：我低估了人们在探测和关心 ChatGPT 政治方面的程度。在收集训练数据时，我们本可以做出一些更好的决策，从而减轻这个问题。我们现在正在解决这个问题。

Jan Leike：从我的角度来看，ChatGPT 失败很多——还有很多事情要做。我们并没有解决这些问题。我们都必须非常清楚地认识到自己和别人的技术局限性。我的意思是，语言模型已经存在了一段时间，但现在仍然是初期阶段。我们知道它们存在的所有问题。我认为我们只需要非常坦率地面对，管理期望，并明确这不是一个成品。

总结

本文介绍了 ChatGPT 是如何由 OpenAI 团队开发出来的。ChatGPT 是一个大型的语言模型，它可以根据用户的输入生成自然语言响应。自 ChatGPT 推出以来，OpenAI 一直在关注用户的使用情况，以了解大量语言模型在成千上万的用户手中的表现。

文章中提到，开发团队在构建 ChatGPT 时遇到了许多挑战，例如如何让模型更好地理解语言、如何在处理大量数据时保持稳定性等。他们采取了一些创新的方法来解决这些问题，例如使用无监督的学习方法和对抗性训练。

此外，文章还提到了一些关于语言模型未来发展的看法，包括模型的增强、模型的可解释性以及模型与人类语言能力之间的关系。

编辑中可能存在的bug没法实时知道，事后为了解决这些bug,花了大量的时间进行log 调试，这边顺便给大家推荐一个好用的BUG监控工具 Fundebug。

原文：https://www.technologyreview.com/2023/03/03/1069311/inside-st...

交流

有梦想，有干货，微信搜索 【大迁世界】 关注这个在凌晨还在刷碗的刷碗智。
本文 GitHub https://github.com/qq449245884/xiaozhi 已收录，有一线大厂面试完整考点、资料以及我的系列文章。

从制造者那里了解到ChatGPT是如何建立的内部故事

总结

交流

王大冶

引用和评论

我如何驯服 Cursor AI，让它每次都生成正确代码

2025年最新反编译微信小程序的教程及工具

手写一个动态海洋和天空效果的vue hooks

你可能不知道的图片加载相关知识

原生JS大揭秘—JS代码执行原理解刨

使用CSS给标题添加书名号并超出省略

原生electron起步-从零到一完成构建和打包