数据集汇总丨萝卜快跑明年盈利？自动驾驶开启「端到端」新时代，高质量数据集助力 AI 大模型上车

在 5 月 15 日召开的百度 Apollo Day 2024 上，百度自动驾驶业务部总经理陈卓表示，萝卜快跑的目标是到 2024 年底在武汉实现收支平衡，在 2025 年全面进入盈利期。 或许正是在这一盈利目标的牵引下，萝卜快跑近期在武汉开启了大面积营运，同时也引发了广泛关注。

抛开舆论中心对于「无人驾驶出租车抢饭碗」的争议不谈，萝卜快跑的低起步价、低单价的确带来了一定的竞争力，而百度探索的运营模式也在一定程度上为「端到端」自动驾驶方案的落地及发展提供了有力参考。

2023 年 8 月，特斯拉 FSD V12 系统正式将「端到端」自动驾驶技术带到了量产车型上， 也将其带入了大众视野之中。随后，华为、小鹏、商汤科技、百度等纷纷跟进，一场全新的行业技术范式正在从探索期迈向成熟应用。

所谓的「端到端」方案是将整个智驾系统看作一个整体模块， 系统接收到传感器的输入数据后，直接输出驾驶决策，其开发模式也由规则驱动转向了数据驱动，即通过大量有价值数据的训练，让 AI 自主学习人类的驾驶模式，直到智能涌现。

这就意味着自动驾驶技术的进一步发展，离不开海量的高质量数据训练。2023 年 6 月，一位特斯拉软件工程师在 CVPR 会议的演讲中谈到，「对于训练自动驾驶的基础模型，不求无上限的数据量，但求一定量级基础上的多样性」。

作为国内领先的数据科学领域搜索引擎 HyperAI超神经 (hyper.ai)， 也关注到了自动驾驶领域的高质量数据需求，为大家提供了热门开源自动驾驶数据集的加速下载，以下汇总了部分数据集。

点击查看更多开源数据集：
https://go.hyper.ai/XHT83

自动驾驶数据集

1、ApolloScape 自动驾驶数据集

发布机构： 百度

发布时间： 2018 年

下载地址：https://go.hyper.ai/hEcFF
ApolloScape 是 Apollo 自动驾驶项目的一部分，旨在促进自动驾驶从感知、导航到控制各个领域的创新。该数据集在数据规模、标签密度及任务等方面仍在不断更新。

2、SODA10M 自动驾驶数据集

发布机构： 华为诺亚方舟实验室、中山大学

发布时间： 2021 年

预估大小： 5.61 GB

下载地址：https://go.hyper.ai/dyEQZ

SODA10M 是一个半/自监督的 2D 基准数据集，主要包含一千万张多样性丰富的无标注道路场景图片以及两万张标注有 6 个代表性对象类别的图片。同时图片包含了多种不同的道路场景（城市，高速，城乡道路，园区），天气（晴天，多云，雨天，雪天），时间段（白天，晚上，凌晨/黄昏）。

3、Talk2Car 自动驾驶数据集

发布机构： 天主教鲁汶大学

发布时间： 2020 年

预估大小： 77.6 MB

下载地址：https://go.hyper.ai/1Ucpo
Talk2Car 数据集是一个对象引用数据集，包含了用自然语言为自动驾驶汽车编写的命令，即乘客可以通过说话的形式对自动驾驶汽车下达命令。Talk2Car 数据集建立在 nuScenes 数据集之上，包括一套广泛的传感器模式，即语义地图、 GPS 、激光雷达、雷达和带有 3D bounding box 标注的 360° RGB 图像。

4、A2D2 奥迪自动驾驶数据集

发布机构： 奥迪

发布时间： 2020 年

预估大小： 2.26 TB

下载地址：https://go.hyper.ai/2D2vm

该数据集是一个奥迪自动驾驶数据集，包含同步图像和 3D 点云，以及 3D bounding box 、语义分割、实例分割及提取自车辆总线的数据。

5、Argoverse 自动驾驶
发布机构： Argo AI、卡内基梅隆大学、佐治亚理工学院

发布时间： 2019 年

预估大小： 260.38 GB

下载地址：https://go.hyper.ai/Bc2Qw

Argoverse 数据集由超过 1000 小时的街道驾驶所获取，包含 3D Tracking 和 Motion Forecasting 两部分，Argoverse 3D tracking 数据集包含 113 个场景的 3d 跟踪注释。每个片段长度为 15-30 秒，共计包含 11319 个跟踪对象。

6、Lyft Level 5 自动驾驶数据集

发布机构： Lyft

发布时间： 2019 年

预估大小： 41.59 GB

下载地址：https://go.hyper.ai/lnpVq

Lyft L5 自动驾驶数据集是由 Lyft 公司提供的 L5 级别自动驾驶数据集，目前仅提供训练集的下载。该数据集包含高质量语义地图，提供对目标的存在和移动的检测。该数据集提供超过 4000 条道路、 197 条人行横道、 60 个 stop sign 和 54 个停车区域等地图信息。

7、BLVD 大型 5D 语义基准数据集

发布机构： 西安交通大学人工智能与机器人研究所

发布时间： 2019 年

预估大小： 43.38 GB

下载地址：https://go.hyper.ai/Ks0I0

该数据集为全球首个五维驾驶场景理解数据集，包含 654 个高分辨率的视频剪辑，共 12 万帧。其中包括 249,129 个 3D 注释帧，4,902 个用于跟踪的独立帧（总长度为 214,922 点），6,004 个用于 5D 交互式事件识别的有效片段，以及 4,900 个用于 5D 意图预测的帧。

8、DBNet 自动驾驶数据集

发布机构： 厦门大学、上海交通大学

发布时间： 2018 年

预估大小： 9.47 GB

下载地址：https://go.hyper.ai/kTM7c

DBNet 是一个用于驾驶行为研究的大规模数据集。该数据集包括对齐视频、点云、 GPS 和驾驶员行为（速度和车轮运动轨迹），捕获了 1 千公里实际驾驶数据。

9、JAAD 自动驾驶数据集

发布机构： 纽约大学

发布时间： 2017 年

预估大小： 2.88 GB

下载地址：https://go.hyper.ai/s498u

该数据集包含 346 个视频片段，时长均为 5-10 秒，帧率为 30，总共 82,032 帧。视频由 3 个车载摄像头采集，涉及北美和东欧各种天气条件下日常城市驾驶的典型场景。