在人工智能领域的顶级会议NeurIPS上,斯坦福大学的杰出教授李飞飞发表了题为《From Seeing to Doing: Ascending the Ladder of Visual Intelligence》的主题演讲。在这次演讲中,李飞飞教授探讨了机器视觉的未来以及人工智能如何塑造我们的现实世界。她强调了空间智能的重要性,并将其视为全面智能的基石。李飞飞教授指出,解决空间智能问题是迈向全面智能的基础性、关键性步骤,并对实现真正理解三维世界的AI系统充满信心。

同时李飞飞教授还在会议开始前接受了IEEE Spectrum的独家专访。作为AI领域的领军人物,李飞飞教授和团队成员和在访谈中分享了一些观点:

1、AI视觉模型与语言模型的关系

李飞飞教授强调了AI视觉模型与语言模型同等重要性,并认为空间智能是视觉智能的发展方向。她指出,视觉和语言是AI发展的两大重要方向,它们各自独立但又相辅相成。

2、空间智能是什么?

空间智能是指机器在三维和思维时空中感知、推理和行动的能力,理解物体和事件的位置以及它们如何相互作用。这很重要,因为视觉空间智能被认为是包括人和机器人在内的任何智能的基础,对于导航、操纵和建立文明至关重要。

3、World Labs 的空间智能 与过去的人工智能研究不同之处

World Labs 的空间智能方法侧重于将机器学习从数据中心带入对3D和4D空间的现实世界理解中。这与过去的AI研究不同,过去的AI研究更受限制,专注于预定义的数据集和任务。

4、未来十年数据理解焦点的预期转移是什么?

预计未来十年数据理解的重点将转向理解新类型的数据,特别是可以通过带有摄像头和传感器的智能手机收集的数据,而不是以前存在的数据,如网络图像和视频。

5、2D图像在理解3D和4D结构方面的重要性是什么?

2D图像非常重要,因为它们是3D世界的投影,提供了一种数学连接,可用于理解物理世界的3D和4D结构。 它们提供了一种将图像用作物理世界的通用传感器的方法,并使大量2D观测能够恢复3D结构。

6、语言模型的一维性质与空间智能的三维性质有何对比?**

语言模型的一维性质,其底层表示是一维的标记序列,与空间智能的三维性质形成对比,后者强调三维世界在其表示中的重要性。 空间智能利用一种基本的三维表示形式,允许不同的数据处理方法和输出,使其能够解决与在1D序列上操作的语言模型略有不同的问题。

7、在场景复杂度方面,这项技术的预期进展是什么?

这项技术的发展预计将从静态场景转向更加动态、完全可交互的环境,并具有所有提到的功能,如运动、物理和交互语义。

8、视觉空间智能和人工智能进步的基本要素是什么?

视觉空间智能和人工智能发展的基本要素包括强大的通用学习算法、大量的计算和大量的数据

9、团队构建所需的AI技术需要哪些特定的专业知识?

这个团队需要高质量的大规模工程专业知识,对3D世界的深刻理解,以及与计算机图形学的联系,以便从不同的角度解决问题。

10、对空间智能的长期愿景及其意义是什么?

对空间智能的长期愿景是解锁机器在三维空间和时间中感知、推理和行动的能力,理解物体和事件如何在其中定位和交互。 空间智能被视为高级人工智能的基础。

另外World Labs还分享迈向空间智能的第一步:从单个图像生成 3D 世界的 AI 系统。

                     https://www.worldlabs.ai/blog

数据集:HourVideo|视频理解数据集|多模态模型数据集

  • 发布时间:2024-11-28
  • 数据集内容:HourVideo是一个用于长时间视频语言理解的基准数据集。它包含了一个新颖的任务套件,包括总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、物体检索)任务。HourVideo包括从Ego4D数据集中手动挑选的500个以自我为中心的视频,持续时间为20到120分钟,并具有12,976个高质量的五路多项选择题。基准测试结果显示,多模态模型(包括GPT-4和LLaVA-NeXT)在随机机会上取得了微小的改进。相比之下,人类专家显著优于最先进的长时间上下文多模态模型Gemini Pro 1.5(85.0%对37.3%),突显了多模态能力上的巨大差距。我们希望将HourVideo建立为一个基准挑战,以推动能够真正理解无尽视觉数据流的先进多模态模型的发展。
  • 数据集地址:HourVideo|视频理解数据集|多模态模型数据集

数据集:VLA-3D|3D场景理解数据集|室内导航数据集

  • 发布时间:2024-11-06
  • 数据集内容:VLA-3D是由卡内基梅隆大学机器人研究所创建的一个大型3D语义场景理解与导航数据集。该数据集包含超过11.5K个扫描的室内房间,23.5M个对象间的语义关系,以及9.7M个合成生成的指代语句。数据集内容包括处理后的3D点云、语义对象和房间标注、场景图、可导航的自由空间标注以及指代语言语句。创建过程涉及从多个现有数据集(如ScanNet、Matterport3D等)中提取3D扫描数据,并生成详细的场景图和语言语句。该数据集主要应用于室内导航系统,旨在解决复杂场景中的对象识别与空间推理问题,特别是对于需要高度鲁棒性的实际应用场景。
  • 数据集地址:VLA-3D|3D场景理解数据集|室内导航数据集

数据集:Rel3D|3D空间关系数据集|机器人技术数据集

  • 发布时间:2020-12-03
  • 数据集内容:Rel3D是由普林斯顿大学创建的首个大规模人类标注的3D空间关系数据集。该数据集包含9990个3D场景,每个场景中包含两个物体,这些物体要么满足一个空间关系(主体-谓词-对象),要么不满足。数据集的内容包括深度、分割掩码、物体位置、姿态和尺度等丰富的几何和语义信息。创建过程涉及众包工作者在Amazon Mechanical Turk上根据指导操作物体,并由独立工作者验证空间关系是否成立。Rel3D的应用领域包括机器人导航、物体操作和人类机器人交互,旨在解决3D空间关系理解和预测的问题。
  • 数据集地址:Rel3D|3D空间关系数据集|机器人技术数据集

数据集:VSI-Bench|多模态数据集|空间智能数据集

  • 发布时间:2024-12-15
  • 数据集内容:VSI-Bench是一个用于评估多模态大型语言模型(MLLMs)视觉空间智能的基准。它包含超过5,000个问题-答案对,来源于288个从公共室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes的验证集中提取的以自我为中心的视频。VSI-Bench包括八项任务,分为配置、测量估计和时空三类。经过迭代优化,VSI-Bench为研究MLLMs与3D重建之间的联系提供了基础资源。
  • 数据集地址:VSI-Bench|多模态数据集|空间智能数据集

数据集:Matterport3D|三维场景理解数据集|计算机视觉数据集

  • 发布时间:2022-08-19
  • 数据集内容:访问大型、多样化的 RGB-D 数据集对于训练 RGB-D 场景理解算法至关重要。然而,现有的数据集仍然只覆盖有限数量的视图或有限的空间规模。在本文中,我们介绍了 Matterport3D,这是一个大型 RGB-D 数据集,包含来自 90 个建筑规模场景的 194,400 个 RGB-D 图像的 10,800 个全景视图。注释与表面重建、相机姿势以及 2D 和 3D 语义分割一起提供。精确的全局对齐和对整个建筑物的全面、多样化的全景视图集支持各种监督和自我监督的计算机视觉任务,包括关键点匹配、视图重叠预测、颜色的正常预测、语义分割和场景分类。
  • 数据集地址:Matterport3D|三维场景理解数据集|计算机视觉数据集

数据集:空间智能3D网格数据|3D模型数据集|空间智能数据集

  • 发布时间:2024-12-12
  • 数据集内容:本数据集提供百万数量级的高质量3D模型,涵盖各种空间结构和物体形状。每个3D模型都经过精细建模和网格优化,确保数据的精度和一致性。数据集适用于空间智能、3D重建、虚拟现实、游戏开发等领域的模型训练与应用,助力提升模型在复杂空间中的理解和操作能力。通过该数据集,开发者可以获得强大的3D数据支持,为智能系统的空间感知和决策提供坚实的基础。
  • 数据集地址:空间智能3D网格数据|3D模型数据集|空间智能数据集

数据集:ScanNet|计算机视觉数据集|3D语义分割数据集

  • 发布时间:2022-09-01
  • 数据集内容:ScanNet 是一个包含 2D 和 3D 数据的实例级室内 RGB-D 数据集。它是标记体素的集合,而不是点或对象。截至目前,ScanNet v2 是 ScanNet 的最新版本,已经收集了 1513 个带注释的扫描,表面覆盖率约为 90%。在语义分割任务中,该数据集被标记为 20 类带注释的 3D 体素化对象。
  • 数据集地址:ScanNet|计算机视觉数据集|3D语义分割数据集

数据集:SUN RGB-D|计算机视觉数据集|机器学习数据集

  • 发布时间:2015-06-06
  • 数据集内容:SUN RGBD 数据集包含 10335 个房间场景的真实 RGB-D 图像。每个 RGB 图像都有对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。
  • 数据集地址:SUN RGB-D|计算机视觉数据集|机器学习数据集

数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。