通向 AGI 的道路，感知类型与大语言模型类型

发布于 2024-07-05

主要观点：李飞飞认为大语言模型无法到达 AGI，因为其原理上不可能产生感知，语言模型说“我饿了”只是生成词语序列，而人说“我饿了”是报告生理状态；同时探讨了将感觉信号转换为 Token 输入模型以突破语言模型无感知问题，以及大脑中语言是感知的高级抽象，端到端架构能否避免信息压缩等问题，指出感知和预测是通往 AGI 的重要因素，但目前对于 GPT4o 等模型是否已具备感知还不确定。

关键信息：

AGI 的重要特征是感知力，大模型无身体无法感知饥饿等。
语言模型把输入转换为文字 Token 进行序列预测，无法产生感知。
大脑通过感知建立世界模型，语言是感知的抽象，语言会损失情感感知。
端到端架构可避免信息丢失，GPT4o 是 e2e 混合训练，其感知部分尚不明确。

重要细节：

列举了 Her 中 AI 的感知表现及结尾 AI 感知到的高级快乐。
介绍了声音克隆和 Sora 是 Transformer 在声音和图像方面的应用。
提及大脑工作原理是感知—建模—预测下一个感知。

阅读 20