DLC-Bench:由英伟达等机构联合创建的基准测试数据集,用于评估详细局部描述。

4 月 24 日
阅读 4 分钟
244
2025-04-23 , 由 NVIDIA、UC Berkeley 和 UCSF 等机构的研究人员创建了 Describe Anything Model(DAM)以及相关数据集和基准测试。DAM 通过关键创新(如焦点提示和局部视觉主干)解决了详细局部描述(DLC)中区域细节丢失、高质量数据稀缺和基准测试限制等挑战,为图像和视频的细粒度描述开辟了新道路。
封面图

PHYBench:首个大规模物理场景下的复杂推理能力评估基准

4 月 24 日
阅读 4 分钟
117
2025-04-23, 由北京大学物理学院和人工智能研究所等机构共同创建的 PHYBench 数据集,这是一个专门用于评估大型语言模型在物理场景下的复杂推理能力的高质量基准。该数据集包含 500 道精心策划的物理问题,覆盖力学、电磁学、热力学、光学、现代物理和高级物理等多个领域,难度从高中练习题到本科习题和物理奥林匹克竞赛...
封面图

Eyecare-100K:首个覆盖多模态、多任务的高质量眼科视觉指令数据集

4 月 23 日
阅读 3 分钟
177
2025-04-18 , 由浙江大学、哈尔滨工业大学、郴州市第一人民医院、新加坡国立大学等机构合作创建了 Eyecare-100K数据集,这是首个涵盖多种模态、任务和疾病的高质量眼科视觉指令数据集,为眼科智能诊断领域提供了关键资源,推动了医学视觉语言模型(Med-LVLMs)在眼科的精细化理解与应用。
封面图

最全糖尿病数据集(不定时更新)

4 月 22 日
阅读 9 分钟
248
糖尿病已成为一项全球性的健康挑战,中国糖尿病患病率从1980年的不足1%增长至2018年的12.4%,2019年达到11.2%,目前患者人数已超过1.14亿,中国拥有世界上最多的糖尿病患者,超过全球糖尿病患者总数的四分之一。
封面图

EuroCropsML:首个面向少样本时间序列作物分类的多国基准数据集

4 月 17 日
阅读 3 分钟
255
2025-04-15,由慕尼黑工业大学等机构创建的 EuroCropsML 数据集,这是一个结合了农民报告的作物数据与 Sentinel-2 卫星观测的时间序列数据集,覆盖了爱沙尼亚、拉脱维亚和葡萄牙。该数据集为解决遥感应用中作物类型数据空间不平衡问题提供了新的基准,有助于推动少样本学习和迁移学习算法在真实世界作物分类任务中的应用...
封面图

DataDoP :一个大规模多模态数据集,包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述。

4 月 11 日
阅读 4 分钟
373
2025-04-10 ,由浙江大学、上海人工智能实验室、斯坦福大学、香港中文大学和南洋理工大学联合创建了 DataDoP 数据集。该数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的为艺术化相机轨迹生成提供高质量的训练数据,推动基于学习的电影摄影技术发展。
封面图

ACPBench Hard数据集:通过开放性生成任务,将规划过程中的推理能力挑战推向极致。

4 月 3 日
阅读 3 分钟
362
2025-04-01,由IBM创建的ACPBench Hard数据集,通过开放性生成任务,将规划过程中的推理能力挑战推向极致,为评估和提升模型在行动、变化和规划方面的推理能力提供了全新视角,也为未来规划领域模型的发展指明了方向。
封面图

iNatAg:一个大规模的农业图像数据集,包含 2,959 个物种的 470 多万张图像。

4 月 2 日
阅读 3 分钟
311
2025-03-29,由加州大学戴维斯分校和普林斯顿大学等机构联合创建的iNatAg数据集,包含 2,959 个物种的 470 多万张图像,为精准农业和可持续发展提供了强大的支持。该数据集不仅能够帮助研究人员更好地识别农作物和杂草,还能为农业机器学习工作流程提供直接的访问和集成,极大地推动了农业领域的技术进步。
封面图

SynTIDE:首个基于文本生成水下图像与密集注释数据集

4 月 1 日
阅读 4 分钟
379
2025-03-28,由华中科技大学的研究团队创建一种创新的水下数据合成方法 TIDE(Text-to-Image and DEnse annotation generation method)。该方法仅依赖文本输入,就能同时生成逼真的水下图像和多种高度一致的密集注释(如深度图和语义分割掩码)。TIDE 的出现有效缓解了水下场景中高质量、大规模密集注释数据稀缺的问题...
封面图

DexGrasp Anything:迄今为止最大、最多样化的灵巧抓握生成数据集

3 月 31 日
阅读 4 分钟
419
2025-03-03,由上海科技大学的研究团队创建了DexGrasp Anything(DGA)的数据集,这是目前规模最大的灵巧抓取数据集,包含超过340万种不同抓取姿势,涵盖15000多个不同物体。该数据集的创建为机器人灵巧抓取领域带来了重大意义,显著提升了现有方法的泛化能力和抓取成功率,推动了通用机器人灵巧抓取技术的发展。
封面图

PartDrag-4D是大规模多视角零件级动态数据集,含超20000状态观测数据,用于4D重建模型训练评估。

3 月 27 日
阅读 4 分钟
380
2025-03-26,由清华大学、密歇根大学、北京大学和 BAAI 等机构联合创建PartDrag-4D 的数据集。该数据集包含超过 20,000 个状态的多视角零件级动态观测数据,目的解决现有方法在建模零件级动态时的局限性,如 2D 视频表示的限制和处理速度慢等问题。PartDrag-4D 的创建为零件级动态建模提供了丰富的数据支持,推动了机器...
封面图

REALM:一个包含超过 94,000 个大规模记录真实世界大语言模型应用的数据集

3 月 26 日
阅读 3 分钟
443
2025-03-24 ,由卡内基梅隆大学和加州大学圣塔芭芭拉分校的研究团队创建REALM数据集,该数据集包含超过94,000个从Reddit和新闻文章中收集的LLM用例,涵盖了LLM的多样化应用和用户群体特征。它为研究LLM在不同领域的应用提供了实证基础,有助于推动对LLM社会角色演变的理解。
封面图

PCLT20K:首个公开的大规模PET-CT肺癌肿瘤分割数据集

3 月 25 日
阅读 4 分钟
395
2025-03-22 ,由湖南大学、南开大学、湖南师范大学和天津医科大学肿瘤研究所共同创建的名为PCLT20K的PET-CT肺癌肿瘤分割数据集。该数据集包含21930对来自605名患者的PET-CT图像,是目前首个公开的大规模PET-CT肺癌肿瘤分割数据集,为相关领域的研究提供了丰富的数据资源,有助于推动PET-CT肺癌肿瘤分割技术的发展。
封面图

GAEA-1.6M:含80万图像、160万问答对,提升模型地理定位与对话能力。

3 月 24 日
阅读 4 分钟
453
2025-03-21,由美国中央佛罗里达大学的研究团队提出了一种名为 GAEA 的地理感知对话模型,并为此创建了 GAEA-1.6M 数据集。其意义在于填补了地理定位对话模型训练数据的空白,使得模型不仅能够预测图像的精确 GPS 坐标,还能与用户进行关于图像位置的有意义对话,为旅游、导航、城市规划等领域带来了新的可能性。
封面图

SynthScars:含12236张全合成图像的高质量多样化检测数据集,有像素级伪影分割、文本解释及类别标签标注。

3 月 21 日
阅读 4 分钟
428
2025-03-19,由上海交通大学、上海人工智能实验室、北京航空航天大学、中山大学和商汤研究联合创建的 SynthScars 数据集。该数据集的创建目的是解决现有合成图像检测数据集的局限性,为合成图像检测研究提供更具挑战性和实用性的基准。
封面图

DAPO-Math-17K:17000数学题整数答案数据集,为LLM强化学习设计,确保准确奖励信号。

3 月 20 日
阅读 3 分钟
504
2025-03-17, 由字节跳动、清华大学人工智能产业研究院、香港大学和清华大学AIR-SIA实验室联合创建了DAPO系统及其配套的DAPO-Math-17K数据集。该数据集通过精心设计和转换,为大规模LLM强化学习提供了高质量的数学问题和答案,助力模型在复杂推理任务上取得显著提升,推动了LLM在数学领域的应用和发展。
封面图

MicroVQA:首个针对显微镜科学研究的多模态推理基准数据集

3 月 19 日
阅读 4 分钟
345
2025-03-18,由斯坦福大学、清华大学等联合创建了 MicroVQA 数据集,这是一个针对显微镜科学研究的视觉问答基准,目的评估专家图像理解、假设生成和实验设计这三种对科学研究至关重要的推理能力,填补了现有基准在复杂多模态科学推理方面的空白,为推动 AI 驱动的生物医学研究提供了宝贵资源。
封面图

PH2D数据集: 用人类演示数据提升人形机器人操作能力,助力跨实体学习

3 月 19 日
阅读 4 分钟
403
2025-03-18, 由加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院等机构联合收集了PH2D数据集。该数据集包含26824个任务导向的人类演示,采用消费者级VR设备收集,提供了准确的3D手部关键点姿态和语言注释。数据集覆盖了多种操作任务、不同的物体和容器,旨在通过模仿人类行为来学习人形机器人的操作策略...
封面图

Comp-DD数据集:从ImageNet-1K中选16子集,含8简单8困难,用于提升复杂场景下数据集蒸馏性能

3 月 19 日
阅读 3 分钟
447
2024-10-23,由新加坡国立大学和卡内基梅隆大学的研究团队等提出了一种新的数据集蒸馏方法EDF(Emphasize Discriminative Features),它通过Grad-CAM激活图增强合成图像中的关键判别区域,以提高在复杂场景下的性能。这一方法的意义在于,它能够显著提升在如ImageNet-1K这样的复杂数据集上的数据集蒸馏效果,为数据集蒸...
封面图

MTU-Bench数据集:用于提升LLMs在多轮对话和多工具使用场景下的性能

3 月 19 日
阅读 2 分钟
351
2024-10-15,由阿里巴巴集团联合中国科学院大学和滑铁卢大学提出了一个创新的大型语言模型(LLMs)多粒度工具使用基准测试数据集——MTU-Bench。这个数据集的重要意义在于它通过模拟真实世界中的工具使用场景,提供了一个全面的评估框架,能够细致地衡量和提升LLMs在多轮对话和多工具使用场景下的性能。
封面图

BC-MRI-SEG数据集:首个统一的乳腺癌MRI肿瘤分割基准,推动深度学习模型的泛化能力

3 月 19 日
阅读 2 分钟
426
2024-04-22,由美国中佛罗里达大学计算机视觉研究中心创建了BC-MRI-SEG,这是基于公开可用的MRI数据集的二元乳腺癌肿瘤分割的基准。这个数据集的创建,不仅为医学影像社区提供了易于访问的四个公共乳腺癌MRI数据集,还通过比较最先进的深度学习方法,为临床设置中的稳健和适应性强的模型提供了评估标准。
封面图

MMScan数据集:首个最大的多模态3D场景数据集,包含层次化的语言标注

3 月 19 日
阅读 3 分钟
446
2024-10-24,由上海人工智能实验室联合多所高校创建了MMScan,这是迄今为止最大的多模态3D场景数据集,包含了层次化的语言标注。数据集的建立,不仅推动了3D场景理解的研究进展,还为训练和评估多模态3D感知模型提供了宝贵的资源。
封面图

CCI3.0-HQ数据集:一个500GB的高质量中文预训练数据集

3 月 19 日
阅读 2 分钟
366
2024-09-19,由北京人工智能研究院(BAAI)创建的CCI3.0-HQ数据集,是一个通过新颖的两阶段混合过滤流程显著提升数据质量的高质量子集。这个数据集的意义在于,它不仅提高了数据的纯净度,还通过实验表明,使用该数据集训练的模型在多个基准测试中取得了优于现有中文数据集的性能,为中文语言模型的发展提供了重要的资源。
封面图

OVT-B:迄今为止最大的开放词汇多目标跟踪数据集

3 月 19 日
阅读 3 分钟
385
2024-10-23,由浙江大学软件技术学院和中国科学院深圳先进技术研究院等联合创建OVT-B,这个数据集的规模和多样性为开放词汇多目标跟踪(OVMOT)研究开辟了新的道路。
封面图

ChatSearch:多轮多模态对话上下文图像检索数据集,要求检索系统在对话中精准找到目标图像。

3 月 19 日
阅读 3 分钟
392
2024-10-24,由中国科学院自动化研究所与字节跳动公司合作创建了ChatSearch,这一数据集通过多轮对话上下文来检索图像,极大地推动了开放领域内对话式图像检索技术的发展。
封面图

W-Bench:是首个全面基准测试,评估水印方法在图像再生、全局编辑、局部编辑及图像到视频生成等图像编辑技术下的稳健性。

3 月 19 日
阅读 3 分钟
412
2024-10-24,由南洋理工大学和苏黎世联邦理工学院共同创建W-Bench,这是一个全面的基准测试,旨在评估水印方法对于包括图像再生、全局编辑、局部编辑和图像到视频生成在内的广泛图像编辑技术的鲁棒性。这个数据集的创建对于版权保护和知识产权的维护具有重要意义,尤其是在面对由大规模文本到图像模型驱动的高级图像编辑...
封面图

Infinity-MM:一个包含 4000 万个样本的开源视觉语言模型的大规模多模态指令数据集。

3 月 19 日
阅读 3 分钟
456
2024-10-15,由北京智源人工智能研究院、北京交通大学、北京邮电大学等机构联合创建了Infinity-MM,一个包含4000万个样本的大规模多模态指令数据集。这个数据集通过严格的质量过滤和去重,显著提升了开源模型与闭源模型性能的差距,为开源视觉语言模型的发展带来了重要意义。
封面图

SPOTS-10:含50,000张32×32灰度图像,专注十种动物图案识别,用于评估机器学习算法。

3 月 19 日
阅读 3 分钟
371
2024-10-28,由英国林肯大学工程与物理科学学院创建SPOTS-10,数据集主要解决夜间图像中基于动物独特体纹识别的复杂计算机视觉任务,为机器学习算法提供了宝贵的评估资源。
封面图

SciER:首个大规模科学文档中的实体和关系抽取数据集

3 月 19 日
阅读 2 分钟
403
2024-10-28,为科学文档中的实体和关系抽取领域带来了突破,提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集,这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。
封面图

AutoBench-V:一个专为 大型视觉语言模型基准测试而设计的全自动框架

3 月 19 日
阅读 3 分钟
383
2024-10-29,由美国圣母大学、MBZUAI和KAUST联合创建了AutoBench-V,意义在于提供了一个自动化的框架,能够根据模型能力的特定方面对大型视觉语言模型(LVLMs)进行基准测试,从而减少人为成本,提高评估的灵活性和效率。
封面图