视频观看本文内容,请戳链接:https://www.bilibili.com/video/BV17ki2YtE8N/?vd_source=d1c2fb...
时间的齿轮高速运转,转眼间,ChatGPT 上线已满两周年。 2022 年 11 月 30 日,OpenAI 推出 ChatGPT 引发的全球互联网震动仿佛就在眼前,仅用了五天就突破百万用户,其在 AI 模型领域引发的一波波余震,更是在这两年间,掀起了全行业的科技变革,OpenAI 表示截至 8 月底,ChatGPT 周活跃用户已突破 2 亿。
短短两年的时间里,ChatGPT 迭代了多个版本,先后发布了 GPT 3.5 Turbo、4、4 Turbo 等多个版本,目前最新版本为 2024 年 5 月 13 日发布的 ChatGPT-4o 模型,参数量也达到了万亿级别。它的能力从起初单纯的文生文聊天交互,拓展到涵盖音频和图像的多模态领域,能够支持多种输入,并生成相应内容。而曾经易出现的 “一本正经地胡说八道” 的 AI 幻觉问题,也随着模型的迭代和数据的微调有了明显改善。
OpenAI 在 X 上发布 GPT-4o
说到 ChatGPT,大家的第一反应是 AI、模型、聊天机器人这些概念。那么 ChatGPT 到底是什么呢?
我们从名字切入剖析,ChatGPT 的全称是 Chat Generative Pre-trained Transformer。
- Chat 是聊天,点明了该模型与用户交互的主要方式。
- Generative 代表生成,意味着这是一个内容生成式的模型。
- Pre-trained 是预训练的意思,是指通常会借助规模较大的数据集,让模型从中提炼并学习通用性较强的特征信息,这也是为什么早期 GPT 存在知识局限的原因。当时,它仅能针对预训练阶段学习过的数据给出精准的回应,而一旦遇到未曾涉猎的数据部分,就会大概率陷入所谓的 “AI 幻觉” 的困境,给出错误的答复。
- 最后,Transformer 则是一种深度学习模型架构,它的提出和发布逐步取代了先前自然语言处理 NLP 领域的 RNN 模型,成为了该领域的主流架构。
合起来理解,ChatGPT 本质上是依托深度学习模型架构 Transformer 搭建而成,预先经过海量文本数据训练后,得以高效开展内容生产工作,为用户提供交互服务的聊天机器人。
Transformer 架构图
接下来,本文将沿着以 GPT 从训练到使用的脉络,给大家简单普及背后的工作机制及原理。
首先是训练部分,GPT 作为典型的预训练模型,在供大家使用前,已经被投喂了海量的文本数据集,模型会把它们拆解为一个个较小的单元,也就是所谓的 tokens,令牌,方便后续运算处理。比如,“我爱人工智能技术” 这句话,可能会被拆分为 “我爱”“人工”“智能 ““技术” 多个令牌。
通过 Transformer 架构,GPT 运用自回归方式和反向传播算法,不断地进行参数调整,直到在数据集上的测试结果达到了预先设定的接受范围之内。至此,模型的预训练阶段就完成了。
当你在 ChatGPT 界面输入讯息后,首先模型会对输入内容进行令牌化操作,随后这些令牌会被送入已经训练好的 GPT 模型中,模型会基于上下文语义关联,严谨计算每个令牌的概率分布,从中筛选出概率最高的令牌作为阶段性文本输出成果。这个过程将循环往复,直到达到模型内置设定的最大输出长度限制,或碰到句号等约定俗成的停止符号才会终止。最终,这些逐个生成的令牌将有序排列,拼接成完整的文本,并经过格式优化处理,呈现出来,这也就是你在聊天框内看到的回复内容。
如今,ChatGPT 已经被广泛应用在了多个日常生活、工作学习的场景中。
在代码编写领域,ChatGPT 不仅帮助程序员在基础代码上进行高效编写,还能在 Debug 的过程中提供快速的思路反馈, 同时也给零基础的普通人提供了自己成功跑通一个小程序的可能性。
而其强大的内容生成能力更是在各行各业发挥着关键效能,在教育领域,它可以化身得力助手,按需生产学习材料和编写题目;而在职场打工人的手中,它绝对是协助生成大纲、制作幻灯片内容脚本的一把好手;当然,最火热的要数自媒体行业了,ChatGPT 可以帮助内容创作者快速生成高质量的社媒文案,极大地提高了自媒体人的工作效率。
展望未来,GPT 的身影还将闪耀在更多高精尖的领域,医疗领域的试点工作也正在稳步推进,不难看出,GPT 的应用浪潮正在逐渐渗透进生活的方方面面。
欢迎加入AI4AI社区,和我们一起开启人工智能世界的精彩旅程吧!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。