AdaR2R:包含9个导航任务,覆盖3个不同的Matterport3D场景,专注于支持在连续室内环境中进行视觉语言导航的研究

3 月 18 日
阅读 3 分钟
511
2024-11-28,由NVIDIA、上海大学和新加坡科技学院联合创建的AdaR2R数据集,旨在通过在连续室内环境中引入移动的人类障碍物,提升机器人导航任务的复杂性和现实世界适应性。数据集地址:AdaR2R|机器人导航数据集|路径规划数据集
封面图

HNTS-MRG 2024 Challenge:一个包含200个头颈癌病例的磁共振图像及其标注的公开数据集。

3 月 18 日
阅读 4 分钟
452
2024-11-28,由德克萨斯大学MD安德森癌症中心创建HNTS-MRG 2024 Challenge数据集,目的通过公开数据集推动自动分割算法的发展,这对于提高放射治疗的精确性和效率具有重要意义。
封面图

BioDeepAV:一个多模态基准数据集,包含超过1600个深度伪造视频,用于评估深度伪造检测器在面对未知生成器时的性能。

3 月 18 日
阅读 2 分钟
537
2024-11-29, 由罗马尼亚布加勒斯特大学创建BioDeepAV数据集,它专门设计来评估最先进的深度伪造检测器在面对未见过的深度伪造生成器时的泛化能力,这对于提高检测器的鲁棒性和适应性具有重要意义。
封面图

GEOBench-VLM:专为地理空间任务设计的视觉-语言模型基准测试数据集

3 月 18 日
阅读 3 分钟
499
2024-11-29 ,由穆罕默德·本·扎耶德人工智能大学等机构创建了GEOBench-VLM数据集,目的评估视觉-语言模型(VLM)在地理空间任务中的表现。该数据集的推出填补了现有基准测试在地理空间应用中的空白,提供了超过10,000个经过人工验证的指令,推动了环境监测、城市规划和灾害管理等领域的研究。
封面图

Open X-Embodiment Dataset:迄今为止最大的开源真实机器人数据集。

3 月 18 日
阅读 3 分钟
508
2024-06-01,由谷歌 DeepMind 联手斯坦福大学等机构联合推出Open X-Embodiment Dataset。这是迄今为止最大的开源真实机器人数据集。它包含 100 多万条真实机器人轨迹,涵盖 22 个机器人实例,从单臂机器人到双手机器人和四足机器人。为机器人学习领域提供了一个全新的、大规模的、多平台的数据资源,有助于推动机器人政策...
封面图

Public Domain 12M:迄今最大的公共领域图像-文本数据集,采用创新治理机制.

3 月 18 日
阅读 3 分钟
359
2024-10-30,由Spawning台创建的Public Domain 12M(PD12M)数据集,包含了1240万张高质量的公共领域和CC0许可的图像及其合成标题,旨在训练文本到图像的模型。这个数据集不仅规模巨大,能够训练基础模型,同时最小化版权问题,还引入了社区驱动的数据治理机制,以减少伤害并支持数据的可复制性。
封面图

TxT360: 一个大规模、高质量、多源融合的数据集,专为预训练大型语言模型设计。

3 月 17 日
阅读 3 分钟
490
2024-10-04, LLM360项目团队创建了TxT360数据集,这个数据集通过整合多种数据源,为预训练大型语言模型提供了丰富的训练材料,具有重要的研究和应用价值。
封面图

EmoAva:首个大规模、高质量的文本到3D表情映射数据集。

3 月 17 日
阅读 4 分钟
480
2024-12-03,由哈尔滨工业大学(深圳)的计算机科学系联合澳门大学、新加坡南洋理工大学等机构创建了EmoAva数据集,这是首个大规模、高质量的文本到3D表情映射数据集,对于推动情感丰富的3D头像生成技术的发展具有重要意义。
封面图

LibriSpeech-Long:首个针对长篇语音生成的大规模语音数据集

3 月 17 日
阅读 3 分钟
534
2014-12-25 ,由谷歌DeepMind和韩国科学技术院集成视觉与语言实验室联合创建 LibriSpeech-Long数据集,这个数据集是LibriSpeech数据集的扩展,包含了更长的、连续的语音段落,这对于长篇多媒体生成和音频原生语音助手的开发具有重要意义。
封面图

MultiCodeBench:首个涵盖 12 个特定软件应用领域和 15 种编程语言的代码生成基准测试

3 月 17 日
阅读 3 分钟
433
2024-12-25,由中山大学、西安交通大学、重庆大学共同创建的MultiCodeBench,填补了特定应用领域代码生成性能评估的空白,为开发者选择适合的LLM提供了实践洞见。
封面图

LAION-SG:一个大规模、高质量的场景图结构注释数据集,为图像-文本模型训练带来了革命性的进步。

3 月 17 日
阅读 3 分钟
382
2024-12-03,由浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团联合创建的LAION-SG数据集,通过提供高质量的场景图(SG)结构注释,显著提升了复杂场景图像生成的性能,为图像-文本模型训练带来了革命性的进步。
封面图

Terra : 一个跨时空域的公共、大规模、细粒度和多模态数据集

3 月 17 日
阅读 3 分钟
518
2024-10-31,由香港科技大学(广州)和四川大学联合创建的多模态时空数据集Terra,跨越全球,为地球科学领域提供了丰富的小时级时间序列数据和多模态空间补充信息,意义在于促进时空数据挖掘的未来研究,推动实现更广泛的时空智能。
封面图

VSI-Bench: 首个视频基础的视觉空间智能基准测试,推动多模态大型语言模型的空间推理能力.

3 月 17 日
阅读 4 分钟
420
2024-12-15,由纽约大学计算机科学助理教授谢赛宁团队联合斯坦福大学的杰出教授李飞飞和耶鲁大学计算机科学与经济学本科生 Rilyn Han 等共同创建了VSI-Bench(Visual-Spatial Intelligence Benchmark)数据集,目的是评估多模态大型语言(MLLMs)在空间认知和理解方面的能力。这个包含超过5000个问题-答案对的数据集覆盖了...
封面图

Mimicking-Bench:首个通过模仿大规模人类动作数据学习通用人形机器人场景交互技能的综合基准

3 月 17 日
阅读 3 分钟
498
2024-12-24,由清华大学、Galbot、上海启智研究所和上海人工智能实验室联合创建了Mimicking-Bench数据集,这个数据集首次为通过模仿人类动作学习通用人形机器人场景交互技能提供了大规模的参考,对于机器人学和现实世界应用具有重要意义。
封面图

PODS:2024-12-21由麻省理工学院 和 OpenAI联合创建一个专门为个性化对象识别任务设计的数据集.

3 月 17 日
阅读 2 分钟
450
2024-12-21,由MIT和OpenAI联合创建的个性化视觉数据集,为细粒度和数据稀缺的个性化视觉任务提供了新的解决方案,推动了个性化模型的发展,具有重要的研究和应用价值。
封面图

MindAgent:基于大型语言模型的多智能体协作基础设施

3 月 17 日
阅读 3 分钟
522
2023-09-18 ,加州大学洛杉矶分校(UCLA)、微软研究院、斯坦福大学等机构共同创建的新型基础设施,目的在评估大型语言模型在游戏互动中的规划和协调能力。MindAgent通过CuisineWorld这一新的游戏场景和相关基准,调度多智能体协作效率,并监督多个智能体同时玩游戏。
封面图

ST-Align:一个包含430万训练样本,涵盖了15种细粒度多模态数据集

3 月 17 日
阅读 2 分钟
474
2025-01-15,由北航大学、合肥工业大学、中科院信息工程研究所和美团等机构联合创建介绍了一种名为LLaVA-ST的多模态大型语言模型。该模型配备了一个名为ST-Align的数据集,专为细粒度时空多模态理解设计。
封面图

Git-10M :一个全球规模的遥感图像-文本对数据集,包含1000万图像-文本对,覆盖广泛的地理场景和丰富的地理空间元数据。

3 月 17 日
阅读 4 分钟
617
2025-01-02,由北京航空航天大学的研究团队创建了数据集Git-10M,这是一个包含1000万图像-文本对的全球规模遥感数据集。该数据集为文本驱动的遥感图像生成技术提供了强大的基础,显著提升了生成图像的多样性和质量,推动了遥感图像生成技术的发展。
封面图

可靠冲突性多视角学习:通过证据驱动的多视角融合提供决策可靠性

3 月 17 日
阅读 3 分钟
424
2024年2月28日,由多位作者联合提出了一种名为可靠冲突性多视角学习(RCML)的框架,其核心贡献在于为含有冲突性实例的多视角数据提供决策结果与可靠性评估。该方法通过证据驱动的多视角融合(ECML)策略,在6个公开数据集上验证了其在准确性、可靠性和鲁棒性上的优势。
封面图

PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架

3 月 17 日
阅读 3 分钟
497
2025年1月7号,由杨德杰、赵子敬、刘洋联合提出PlanLLM,一种基于可微调大型语言模型(LLM)的跨模态联合学习框架,用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块,PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制,实现了对新步骤和任务的泛化能力。
封面图

DeepBranchTracer:一种使用多特征学习进行曲线结构重建的通用方法

3 月 17 日
阅读 3 分钟
468
2024-02-02,由刘超、赵婷、郑能干一起提出了一种名为DeepBranchTracer的新型方法,是一种高效、通用的曲线结构重建方法,适用于多种 2D 和 3D 图像数据集。通过结合图像特征和几何特征,显著提高了重建的准确性和连续性。
封面图

MME-CoT:专为评估大型多模态模型CoT推理能力的基准测试。涵盖了数学、科学、OCR、逻辑、时空和一般场景6个领域。

3 月 17 日
阅读 3 分钟
566
2025-02-09 ,由CUHK MMLab、CUHK MulLab、字节跳动、、东北大学等机构联合发布MME-CoT数据集,该数据集目的评估大型多模态模型(LMMs)中的思维链(CoT)推理能力,涵盖数学、科学、OCR、逻辑、时空和通用场景六个领域,通过细致的评估指标体系,深入分析了当前LMMs在推理质量、鲁棒性和效率方面的表现,为多模态推理研...
封面图

s1K 数据集:是一个用于提升语言模型推理能力的高质量数据集。

3 月 17 日
阅读 4 分钟
549
2025-02-07, 由斯坦福大学、华盛顿大学等研究机构创建了 s1K 数据集,该数据集包含 1,000 个精心挑选的问题,并配以推理轨迹和答案,为语言模型推理能力的提升提供了重要的数据基础。
封面图

GoT:一个包含超过 900 万样本的大规模数据集,涵盖详细的语义-空间推理链,用于支持视觉生成和编辑任务。

3 月 17 日
阅读 3 分钟
486
2025-03-14,由 CUHK MMLab、HKU、SenseTime、上海人工智能实验室、清华大学和北航等机构联合创建的 Generation Chain-of-Thought (GoT) 数据集,这是一个包含超过 900 万样本的大规模数据集,涵盖详细的语义-空间推理链。这个数据集为视觉生成和编辑任务提供了强大的推理能力支持,推动了多模态大语言模型在视觉领域的...
封面图

Para-Lane: 首个真实世界多车道数据集,目的评估自动驾驶系统中的新型视角合成能力。

3 月 14 日
阅读 4 分钟
505
2025-02-22,阿里巴巴集团菜鸟自动驾驶实验室和百度研究院共同创建了一个名为 Para-Lane 的真实世界多车道数据集。该数据集目的评估自动驾驶系统中的新型视角合成(NVS)能力,通过提供大量真实世界的数据,弥补了现有合成数据集在真实性方面的不足,为自动驾驶技术的发展和仿真提供了重要支持。
封面图

V-HOP:结合视觉和触觉多模态融合数据集,助力机器人实现鲁棒的6D物体姿态跟踪

3 月 14 日
阅读 4 分钟
537
2025-02-25,由布朗大学和德州大学达拉斯分校联合创建了V-HOP数据集,目的通过结合视觉和触觉信息实现鲁棒的6D物体姿态跟踪。该数据集的最大特点是包含了多种机械手和物体的多模态数据,能够有效支持跨机械手和跨物体的泛化能力,为机器人在复杂环境下的精准操作提供了更强大的感知支持。
封面图

Collab-Overcooked:专注于多智能体协作的语言模型基准测试平台

3 月 14 日
阅读 2 分钟
484
2025-02-27,由北京邮电大学和理想汽车公司联合创建。该平台基于《Overcooked-AI》游戏环境,设计了更具挑战性和实用性的交互任务,目的通过自然语言沟通促进多智能体协作。
封面图

由麻省理工学院计算机科学与人工智能实验室等机构创建低成本、高效率的物理驱动数据生成框架,助力接触丰富的机器人操作任务

3 月 14 日
阅读 3 分钟
472
2025-02-28,由麻省理工学院计算机科学与人工智能实验室(CSAIL)和机器人与人工智能研究所的研究团队创建了一种低成本的数据生成框架,通过结合物理模拟、人类演示和基于模型的规划,高效生成大规模、高质量的接触丰富型机器人操作数据集。
封面图

PanAf-FGBG Dataset:首个针对野生动物行为识别背景影响的大规模数据集

3 月 12 日
阅读 3 分钟
480
2025-03-01 ,由布里斯托大学、野生黑猩猩基金会、莱比锡大学等机构创建了名为PanAf-FGBG的数据集,该数据集包含20小时的野生黑猩猩行为视频,首次提供了前景(含黑猩猩)和背景(不含黑猩猩)视频对。这一数据集的意义在于能够系统地分析背景信息对野生动物行为识别的影响,并为模型的泛化能力提供量化评估,助力野生动...
封面图

DIPSER 数据集:首个面向真实场景下学生课堂参与度识别的数据集

3 月 12 日
阅读 3 分钟
425
2025-02-27 ,由西班牙阿利坎特大学计算机研究所发布的DIPSER数据集,是首个专注于真实场景下学生课堂参与度识别的数据集。该数据集的创建填补了教育技术领域在学生注意力分析方面的数据空白,为开发更精准的教育工具和提升教学质量提供了有力支持。
封面图