ChatGPT 上线两周年，带你盘点GPTs主要原理和工作机制

视频观看本文内容，请戳链接：https://www.bilibili.com/video/BV17ki2YtE8N/?vd_source=d1c2fb...

时间的齿轮高速运转，转眼间，ChatGPT 上线已满两周年。 2022 年 11 月 30 日，OpenAI 推出 ChatGPT 引发的全球互联网震动仿佛就在眼前，仅用了五天就突破百万用户，其在 AI 模型领域引发的一波波余震，更是在这两年间，掀起了全行业的科技变革，OpenAI 表示截至 8 月底，ChatGPT 周活跃用户已突破 2 亿。

短短两年的时间里，ChatGPT 迭代了多个版本，先后发布了 GPT 3.5 Turbo、4、4 Turbo 等多个版本，目前最新版本为 2024 年 5 月 13 日发布的 ChatGPT-4o 模型，参数量也达到了万亿级别。它的能力从起初单纯的文生文聊天交互，拓展到涵盖音频和图像的多模态领域，能够支持多种输入，并生成相应内容。而曾经易出现的 “一本正经地胡说八道” 的 AI 幻觉问题，也随着模型的迭代和数据的微调有了明显改善。

OpenAI 在 X 上发布 GPT-4o

说到 ChatGPT，大家的第一反应是 AI、模型、聊天机器人这些概念。那么 ChatGPT 到底是什么呢？

我们从名字切入剖析，ChatGPT 的全称是 Chat Generative Pre-trained Transformer。

Chat 是聊天，点明了该模型与用户交互的主要方式。
Generative 代表生成，意味着这是一个内容生成式的模型。
Pre-trained 是预训练的意思，是指通常会借助规模较大的数据集，让模型从中提炼并学习通用性较强的特征信息，这也是为什么早期 GPT 存在知识局限的原因。当时，它仅能针对预训练阶段学习过的数据给出精准的回应，而一旦遇到未曾涉猎的数据部分，就会大概率陷入所谓的 “AI 幻觉” 的困境，给出错误的答复。
最后，Transformer 则是一种深度学习模型架构，它的提出和发布逐步取代了先前自然语言处理 NLP 领域的 RNN 模型，成为了该领域的主流架构。

合起来理解，ChatGPT 本质上是依托深度学习模型架构 Transformer 搭建而成，预先经过海量文本数据训练后，得以高效开展内容生产工作，为用户提供交互服务的聊天机器人。

Transformer 架构图

接下来，本文将沿着以 GPT 从训练到使用的脉络，给大家简单普及背后的工作机制及原理。

首先是训练部分，GPT 作为典型的预训练模型，在供大家使用前，已经被投喂了海量的文本数据集，模型会把它们拆解为一个个较小的单元，也就是所谓的 tokens，令牌，方便后续运算处理。比如，“我爱人工智能技术” 这句话，可能会被拆分为 “我爱”“人工”“智能 ““技术” 多个令牌。

通过 Transformer 架构，GPT 运用自回归方式和反向传播算法，不断地进行参数调整，直到在数据集上的测试结果达到了预先设定的接受范围之内。至此，模型的预训练阶段就完成了。

当你在 ChatGPT 界面输入讯息后，首先模型会对输入内容进行令牌化操作，随后这些令牌会被送入已经训练好的 GPT 模型中，模型会基于上下文语义关联，严谨计算每个令牌的概率分布，从中筛选出概率最高的令牌作为阶段性文本输出成果。这个过程将循环往复，直到达到模型内置设定的最大输出长度限制，或碰到句号等约定俗成的停止符号才会终止。最终，这些逐个生成的令牌将有序排列，拼接成完整的文本，并经过格式优化处理，呈现出来，这也就是你在聊天框内看到的回复内容。

如今，ChatGPT 已经被广泛应用在了多个日常生活、工作学习的场景中。

在代码编写领域，ChatGPT 不仅帮助程序员在基础代码上进行高效编写，还能在 Debug 的过程中提供快速的思路反馈，同时也给零基础的普通人提供了自己成功跑通一个小程序的可能性。

而其强大的内容生成能力更是在各行各业发挥着关键效能，在教育领域，它可以化身得力助手，按需生产学习材料和编写题目；而在职场打工人的手中，它绝对是协助生成大纲、制作幻灯片内容脚本的一把好手；当然，最火热的要数自媒体行业了，ChatGPT 可以帮助内容创作者快速生成高质量的社媒文案，极大地提高了自媒体人的工作效率。

展望未来，GPT 的身影还将闪耀在更多高精尖的领域，医疗领域的试点工作也正在稳步推进，不难看出，GPT 的应用浪潮正在逐渐渗透进生活的方方面面。

欢迎加入AI4AI社区，和我们一起开启人工智能世界的精彩旅程吧！

ChatGPT 上线两周年，带你盘点GPTs主要原理和工作机制

AI4AI社区

引用和评论

师之灼见 | 1024数字产业基金会发起人冯雷揭秘智能进化共同体的奥秘

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

Vue3-ChatGPT：基于vite4.x+vue3+pinia2模仿chatgpt聊天AI实例

分享自制小工具：AutomateGPT – 在 ChatGPT 里批量执行任务