在今年的英伟达GTC全球大会上,群核科技自主研发的空间理解模型SpatialLM宣布正式开源。该模型仅通过一段视频即可生成物理正确的3D场景布局。就像我们环顾四周环境便可以理解背后的空间结构一样,SpatialLM模型能够基于从视频中提取的点云数据,准确认知和理解其中的结构化场景信息,并将它以脚本语言的形式呈现出来。
SpatialLM 是一种3D大语言模型,旨在处理3D点云数据并生成结构化的3D场景理解输出。这些输出包括墙壁、门、窗等建筑元素,以及带有语义类别的定向物体边界框。与以往需要专门设备进行数据收集的方法不同,SpatialLM 能够处理来自单目视频序列、RGBD 图像和 LiDAR 传感器等多种来源的点云数据。这种多模态架构有效地弥合了非结构化3D几何数据与结构化3D表示之间的差距,提供了高层次的语义理解。该模型增强了机器人对空间的理解和推理能力,适用于具身机器人、自主导航和其他复杂的3D场景分析任务。
虽然行业已有对图像、视频进行参数化描述模型,比如Meta此前发布的SceneScript模型。但SpatialLM的独特之处在于:
1、相比Meta需要依赖其眼镜的定制化模式,SpatialLM设定于面向普通相机、手机的视频作为输入,因此更具通用性。
2、不同于传感器对物理世界的感知,SpatialLM使用大语言模型,最终输出是对3D场景的自然语言描述,未来还将支持原生自然语言与场景数据的交互。
3、更重要的是,SpatialLM支持对物理世界中空间信息的认知理解,和结构化描述。群核科技本身便专注于物理空间模拟的技术场景,过去十余年中积累了海量的三维数据和空间认知数据;基于此数据训练的模型,亦具备创建物理正确的空间场景的能力。
通过增强大语言模型的空间理解能力,SpatialLM模型开源后,将为像具身智能领域的企业或机构科研团队提供一个空间认知理解的基础训练框架。尤其是对那些不具备模型开发能力的具身智能企业,可以基于SpatialLM模型进行微调,降低具身智能训练门槛。
去年群核科技发布的空间智能解决方案SpatialVerse,则希望通过合成数据方案为机器人搭建最接近物理真实的‘数字道场’,实现机器人在仿真环境中的行动交互训练。SpatialLM与SpatialVerse的组合,构建了一个从空间认知理解到空间行动交互闭环的具身智能训练平台,可以更好的帮助具身智能机器人领域的仿真训练。
SpatialLM未来可以扩展到更多任务,例如使人类能够通过自然语言与场景进行交互,并赋能具身代理在3D环境中执行复杂任务。
目前,SpatialLM模型已在HuggingFace 、Github、魔搭社区等平台开源,全球开发者均可免费下载并进行部署。
模型官方页面:
https://manycore-research.github.io/SpatialLM/
Github开源地址
https://github.com/manycore-research/SpatialLM
HuggingFace开源地址
https://huggingface.co/manycore-research/SpatialLM-Llama-1B
https://huggingface.co/manycore-research/SpatialLM-Qwen-0.5B
魔搭社区开源地址
https://modelscope.cn/models/manycore-research/SpatialLM-Llam...
https://modelscope.cn/models/manycore-research/SpatialLM-Qwen...
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。