主要观点:李飞飞认为大语言模型无法到达 AGI,因为其原理上不可能产生感知,语言模型说“我饿了”只是生成词语序列,而人说“我饿了”是报告生理状态;同时探讨了将感觉信号转换为 Token 输入模型以突破语言模型无感知问题,以及大脑中语言是感知的高级抽象,端到端架构能否避免信息压缩等问题,指出感知和预测是通往 AGI 的重要因素,但目前对于 GPT4o 等模型是否已具备感知还不确定。
关键信息:
- AGI 的重要特征是感知力,大模型无身体无法感知饥饿等。
- 语言模型把输入转换为文字 Token 进行序列预测,无法产生感知。
- 大脑通过感知建立世界模型,语言是感知的抽象,语言会损失情感感知。
- 端到端架构可避免信息丢失,GPT4o 是 e2e 混合训练,其感知部分尚不明确。
重要细节:
- 列举了 Her 中 AI 的感知表现及结尾 AI 感知到的高级快乐。
- 介绍了声音克隆和 Sora 是 Transformer 在声音和图像方面的应用。
- 提及大脑工作原理是感知—建模—预测下一个感知。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。