通向 AGI 的道路,感知类型与大语言模型类型

主要观点:李飞飞认为大语言模型无法到达 AGI,因为其原理上不可能产生感知,语言模型说“我饿了”只是生成词语序列,而人说“我饿了”是报告生理状态;同时探讨了将感觉信号转换为 Token 输入模型以突破语言模型无感知问题,以及大脑中语言是感知的高级抽象,端到端架构能否避免信息压缩等问题,指出感知和预测是通往 AGI 的重要因素,但目前对于 GPT4o 等模型是否已具备感知还不确定。

关键信息:

  • AGI 的重要特征是感知力,大模型无身体无法感知饥饿等。
  • 语言模型把输入转换为文字 Token 进行序列预测,无法产生感知。
  • 大脑通过感知建立世界模型,语言是感知的抽象,语言会损失情感感知。
  • 端到端架构可避免信息丢失,GPT4o 是 e2e 混合训练,其感知部分尚不明确。

重要细节:

  • 列举了 Her 中 AI 的感知表现及结尾 AI 感知到的高级快乐。
  • 介绍了声音克隆和 Sora 是 Transformer 在声音和图像方面的应用。
  • 提及大脑工作原理是感知—建模—预测下一个感知。
阅读 18
0 条评论