三分钟看完关于 ChatGPT 的技术概括

最近一段时间 OpenAPI 的人工智能聊天机器人 ChatGPT 火了，在全球拥有百万用户，无数投资人的青睐有加，掀起自媒体一场狂欢。在ChatGPT发布以后，其公司 OpenAI 的市值已经超过了 290 亿美元。

在这里我想简单地聊一聊 ChatGPT 背后依赖的技术，再畅想一下它对我们这个世界可能带来的改变。

supervised learning （监督学习）

监督式学习是一种机器学习的范式，它表示所有的输入样本都有标注标签。以往的一些机器学习应用，例如：识别图片中的物体，语音转文字，文字识别等等，大部分是采用了这种学习范式。

在 ChatGPT 的训练过程中，工作人员会与AI进行对话，以人工的方式进行标注。

reinforcement learning （强化学习）

强化学习是有别于监督学习的另一种机器学习范式，它能够使 AI 自主地寻找最优方案。它的特点是不再需要标注好的样本，也不需要人工地去纠正行为。AI 会在已知与未知之间找到平衡点。一些对抗性的人工智能应用，比如：会打Dota的AI，著名的围棋AI alphago 等等，都是使用这种学习范式。

在 ChatGPT 的训练过程中，人类先给 AI 的对话回复进行打分，之后根据这些打分生成一个评分模型，之后便可以训练 AI 去获得更高的评分。

训练所用的硬件设备

ChatGPT 的训练过程是预先完成好的，在微软的 Azure 云的超级计算基础设施上完成。

大型语言模型的降临

大型语言模型仿佛一种外星生物降临在地球上，引起了人们的好奇和恐惧。它在博览群书之后，彷佛已经拥有了人类全部的智慧结晶。但也有人说，ChatGPT 不过是一个只会寻章摘句的书袋子，无法有自己的创新能力。

各种观点都有道理，我认为大型语言模型的潜力是显而易见的，它能胜任很大一部分的对话工作，例如：客服，柜台服务人员等等。我认为目前对 ChatGPT ，或者所对所有大型AI 的制约主要来自于它们无法像人类一样接触现实世界，因为实践是检验真理的唯一标准，AI 从互联网上获得的内容是输入性质的，AI 自己产生的输出没有得到现实世界的有效反馈。（据说 ChatGPT 已经在搜集用户的对话反馈，或许当反馈达到一定量级之后会产生质变）。

设想一下，假如 AI 能够实时地观测现实世界的最新变化，并且参与到社会活动中，例如，进行化学实验，经营一家公司，做出股票投资，甚至管理一座城市等等。它就能够从实践中进行学习，再结合过往的知识，不断修正，产生新的知识。

我期待看到第一篇由 AI 发表的论文，第一个由 AI 完全负责的基金（如果能推出一定会卖爆，毕竟投资界一贯的格言是要摆脱人性），第一家由 AI 负责决策的公司。当然，这后面必须是有具体的人类进行负责的，例如公司“法人”的概念，毕竟 AI 即便成为犯罪的借口，也不能代替人去坐牢。

总结

科技发展是一个螺旋上升的路径，在山重水复疑无路时，会柳暗花明，但在众人追捧的时候又有可能陷入困境，对 AI 的发展，我们保持乐观，也保持冷静。

三分钟看完关于 ChatGPT 的技术概括

supervised learning （监督学习）

reinforcement learning （强化学习）

训练所用的硬件设备

大型语言模型的降临

总结

Ljzn

引用和评论

写一个简单的项目

Vue3-ChatGPT：基于vite4.x+vue3+pinia2模仿chatgpt聊天AI实例

分享自制小工具：AutomateGPT – 在 ChatGPT 里批量执行任务

Vite4-MobileGPT：基于vue3+vant4移动端仿ChatGPT聊天模板

electron25-vue3-chatgpt：基于vite4+electron客户端仿制chatgpt聊天应用

快捷键打开某个窗口(如网页chatGPT)

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总