微软发布Magma:集成视觉与语言处理的多模态AI模型
微软研究院于周三发布了Magma,这是一个集成视觉与语言处理的人工智能基础模型,旨在控制软件界面和机器人系统。如果该模型在微软内部测试之外的表现也能保持稳定,它可能标志着一种多功能多模态AI的显著进步,能够在现实和数字空间中实现交互操作。
Magma的核心特点
- 多模态数据处理与执行:Magma不仅能处理文本、图像和视频等多模态数据,还能直接基于这些数据执行操作,例如导航用户界面或操纵物理对象。
- 合作研发:该项目由微软、韩国科学技术院(KAIST)、马里兰大学、威斯康星大学麦迪逊分校和华盛顿大学的研究人员共同合作完成。
- 单一模型集成:与以往需要单独模型进行感知和控制的多模态AI系统不同,Magma将这些能力集成到一个基础模型中。
Magma的技术创新
- 空间智能:Magma不仅具备传统的“语言智能”,还引入了“空间智能”,即规划和执行行动的能力。通过训练图像、视频、机器人数据和用户界面交互,Magma成为一个真正的多模态代理,而不仅仅是感知模型。
技术组件:
- Set-of-Mark:通过为交互元素(如用户界面中的可点击按钮或机器人工作空间中的可抓取物体)分配数字标签,识别环境中可操纵的对象。
- Trace-of-Mark:从视频数据中学习运动模式,帮助模型完成任务,如导航用户界面或指导机械臂抓取物体。
Magma的性能表现
- 基准测试:Magma-8B在多个基准测试中表现出色,特别是在用户界面导航和机器人操作任务中。例如,在VQAv2视觉问答基准测试中得分为80.0,高于GPT-4V的77.2,但低于LLaVA-Next的81.8。在POPE测试中,Magma以87.4的得分领先所有对比模型。
- 机器人操作:在多个机器人操作任务中,Magma的表现优于开源视觉-语言-动作模型OpenVLA。
未来发展与挑战
- 技术局限:Magma在复杂的多步骤决策任务中仍存在技术限制,微软表示正在通过持续研究改进这些能力。
- 代码开源:微软计划下周在GitHub上发布Magma的训练和推理代码,供外部研究人员进一步开发。
- AI文化变迁:Magma的发布也反映了AI文化的快速变化。几年前,这种“代理性AI”讨论曾引发人们对AI可能“接管世界”的担忧,而如今,AI代理已成为主流AI研究的常见话题。
总结
Magma的发布标志着微软在多功能多模态AI领域迈出了重要一步。通过集成视觉与语言处理能力,Magma不仅能够理解复杂任务,还能自主执行操作,推动AI助手从有限的文本交互向自主操作软件和执行现实世界任务的方向发展。尽管仍面临技术挑战,Magma的潜力使其成为未来AI研究的重要方向。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。