前沿人工智能模型在基本物理任务上仍失败:一个制造案例研究

Dario Amodei 担忧只有 30%工作被自动化会导致自动化与非自动化群体间的阶级紧张,他预测几乎所有工作会同时被自动化使大家处于同一起跑线。作者基于自身在 AI 研究、机器人和制造领域的经验,认为近期会有一段时间大量白领工作被 AI 自动化,而许多物理世界工作基本不受影响。

  • 评估:作者让模型制定用 3 轴 CNC 铣床和 2 轴 CNC 车床加工一个简单黄铜零件的计划,多数模型在视觉能力(常错过明显特征或出现幻觉)和物理推理技能(如忽略刚性和颤动、提出物理上不可能的工装等)方面表现不佳,Gemini 2.5 Pro 在视觉方面有进步但仍有不足,此评估仅触及表面,真正制造需管理更多细节,模型在各阶段挑战(准确视觉感知、基本物理合理性、融入物理知识、过程优化)中均表现糟糕,且缺乏数据是其在物理任务中表现差的原因。
  • 为何 LLM 在物理任务中挣扎:缺乏数据,物理任务依赖隐性知识和经验细节,难以有效数字化,LLM 善于复述课本知识但不足。同时,改进物理世界理解可能困难,如定义复杂物理任务的奖励信号困难、试验错误成本高且危险,也有理由认为可能比预期容易,如自动化 AI 研究者或合成数据的应用。
  • 潜在影响:若此趋势持续,远程工作会被大量自动化,而熟练物理工作受 AI 影响小,可能导致阶级冲突、民众反对 AI、地缘政治瓶颈等,存在很多不确定性和紧张局势。
  • 结论:这种不平衡的自动化差距可能会持续,AI 研究中很少讨论此问题,政策、职业规划或关注社会稳定的人应考虑部分自动化的影响。附录中详细列出各模型的计划及错误描述,如视觉和物理推理方面的错误等。
阅读 50
0 条评论