SF
kk
kk
注册登录
关注博客
注册登录
主页
关于
RSS
ACPBench Hard数据集:通过开放性生成任务,将规划过程中的推理能力挑战推向极致。
数据猎手小k
4 月 3 日
阅读 3 分钟
103
2025-04-01,由IBM创建的ACPBench Hard数据集,通过开放性生成任务,将规划过程中的推理能力挑战推向极致,为评估和提升模型在行动、变化和规划方面的推理能力提供了全新视角,也为未来规划领域模型的发展指明了方向。
iNatAg:一个大规模的农业图像数据集,包含 2,959 个物种的 470 多万张图像。
数据猎手小k
4 月 2 日
阅读 3 分钟
156
2025-03-29,由加州大学戴维斯分校和普林斯顿大学等机构联合创建的iNatAg数据集,包含 2,959 个物种的 470 多万张图像,为精准农业和可持续发展提供了强大的支持。该数据集不仅能够帮助研究人员更好地识别农作物和杂草,还能为农业机器学习工作流程提供直接的访问和集成,极大地推动了农业领域的技术进步。
SynTIDE:首个基于文本生成水下图像与密集注释数据集
数据猎手小k
4 月 1 日
阅读 4 分钟
216
2025-03-28,由华中科技大学的研究团队创建一种创新的水下数据合成方法 TIDE(Text-to-Image and DEnse annotation generation method)。该方法仅依赖文本输入,就能同时生成逼真的水下图像和多种高度一致的密集注释(如深度图和语义分割掩码)。TIDE 的出现有效缓解了水下场景中高质量、大规模密集注释数据稀缺的问题...
DexGrasp Anything:迄今为止最大、最多样化的灵巧抓握生成数据集
数据猎手小k
3 月 31 日
阅读 4 分钟
267
2025-03-03,由上海科技大学的研究团队创建了DexGrasp Anything(DGA)的数据集,这是目前规模最大的灵巧抓取数据集,包含超过340万种不同抓取姿势,涵盖15000多个不同物体。该数据集的创建为机器人灵巧抓取领域带来了重大意义,显著提升了现有方法的泛化能力和抓取成功率,推动了通用机器人灵巧抓取技术的发展。
PartDrag-4D是大规模多视角零件级动态数据集,含超20000状态观测数据,用于4D重建模型训练评估。
数据猎手小k
3 月 27 日
阅读 4 分钟
299
2025-03-26,由清华大学、密歇根大学、北京大学和 BAAI 等机构联合创建PartDrag-4D 的数据集。该数据集包含超过 20,000 个状态的多视角零件级动态观测数据,目的解决现有方法在建模零件级动态时的局限性,如 2D 视频表示的限制和处理速度慢等问题。PartDrag-4D 的创建为零件级动态建模提供了丰富的数据支持,推动了机器...
REALM:一个包含超过 94,000 个大规模记录真实世界大语言模型应用的数据集
数据猎手小k
3 月 26 日
阅读 3 分钟
374
2025-03-24 ,由卡内基梅隆大学和加州大学圣塔芭芭拉分校的研究团队创建REALM数据集,该数据集包含超过94,000个从Reddit和新闻文章中收集的LLM用例,涵盖了LLM的多样化应用和用户群体特征。它为研究LLM在不同领域的应用提供了实证基础,有助于推动对LLM社会角色演变的理解。
PCLT20K:首个公开的大规模PET-CT肺癌肿瘤分割数据集
数据猎手小k
3 月 25 日
阅读 4 分钟
292
2025-03-22 ,由湖南大学、南开大学、湖南师范大学和天津医科大学肿瘤研究所共同创建的名为PCLT20K的PET-CT肺癌肿瘤分割数据集。该数据集包含21930对来自605名患者的PET-CT图像,是目前首个公开的大规模PET-CT肺癌肿瘤分割数据集,为相关领域的研究提供了丰富的数据资源,有助于推动PET-CT肺癌肿瘤分割技术的发展。
GAEA-1.6M:含80万图像、160万问答对,提升模型地理定位与对话能力。
数据猎手小k
3 月 24 日
阅读 4 分钟
387
2025-03-21,由美国中央佛罗里达大学的研究团队提出了一种名为 GAEA 的地理感知对话模型,并为此创建了 GAEA-1.6M 数据集。其意义在于填补了地理定位对话模型训练数据的空白,使得模型不仅能够预测图像的精确 GPS 坐标,还能与用户进行关于图像位置的有意义对话,为旅游、导航、城市规划等领域带来了新的可能性。
SynthScars:含12236张全合成图像的高质量多样化检测数据集,有像素级伪影分割、文本解释及类别标签标注。
数据猎手小k
3 月 21 日
阅读 4 分钟
370
2025-03-19,由上海交通大学、上海人工智能实验室、北京航空航天大学、中山大学和商汤研究联合创建的 SynthScars 数据集。该数据集的创建目的是解决现有合成图像检测数据集的局限性,为合成图像检测研究提供更具挑战性和实用性的基准。
DAPO-Math-17K:17000数学题整数答案数据集,为LLM强化学习设计,确保准确奖励信号。
数据猎手小k
3 月 20 日
阅读 3 分钟
388
2025-03-17, 由字节跳动、清华大学人工智能产业研究院、香港大学和清华大学AIR-SIA实验室联合创建了DAPO系统及其配套的DAPO-Math-17K数据集。该数据集通过精心设计和转换,为大规模LLM强化学习提供了高质量的数学问题和答案,助力模型在复杂推理任务上取得显著提升,推动了LLM在数学领域的应用和发展。
MicroVQA:首个针对显微镜科学研究的多模态推理基准数据集
数据猎手小k
3 月 19 日
阅读 4 分钟
264
2025-03-18,由斯坦福大学、清华大学等联合创建了 MicroVQA 数据集,这是一个针对显微镜科学研究的视觉问答基准,目的评估专家图像理解、假设生成和实验设计这三种对科学研究至关重要的推理能力,填补了现有基准在复杂多模态科学推理方面的空白,为推动 AI 驱动的生物医学研究提供了宝贵资源。
PH2D数据集: 用人类演示数据提升人形机器人操作能力,助力跨实体学习
数据猎手小k
3 月 19 日
阅读 4 分钟
337
2025-03-18, 由加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院等机构联合收集了PH2D数据集。该数据集包含26824个任务导向的人类演示,采用消费者级VR设备收集,提供了准确的3D手部关键点姿态和语言注释。数据集覆盖了多种操作任务、不同的物体和容器,旨在通过模仿人类行为来学习人形机器人的操作策略...
Comp-DD数据集:从ImageNet-1K中选16子集,含8简单8困难,用于提升复杂场景下数据集蒸馏性能
数据猎手小k
3 月 19 日
阅读 3 分钟
372
2024-10-23,由新加坡国立大学和卡内基梅隆大学的研究团队等提出了一种新的数据集蒸馏方法EDF(Emphasize Discriminative Features),它通过Grad-CAM激活图增强合成图像中的关键判别区域,以提高在复杂场景下的性能。这一方法的意义在于,它能够显著提升在如ImageNet-1K这样的复杂数据集上的数据集蒸馏效果,为数据集蒸...
MTU-Bench数据集:用于提升LLMs在多轮对话和多工具使用场景下的性能
数据猎手小k
3 月 19 日
阅读 2 分钟
284
2024-10-15,由阿里巴巴集团联合中国科学院大学和滑铁卢大学提出了一个创新的大型语言模型(LLMs)多粒度工具使用基准测试数据集——MTU-Bench。这个数据集的重要意义在于它通过模拟真实世界中的工具使用场景,提供了一个全面的评估框架,能够细致地衡量和提升LLMs在多轮对话和多工具使用场景下的性能。
BC-MRI-SEG数据集:首个统一的乳腺癌MRI肿瘤分割基准,推动深度学习模型的泛化能力
数据猎手小k
3 月 19 日
阅读 2 分钟
357
2024-04-22,由美国中佛罗里达大学计算机视觉研究中心创建了BC-MRI-SEG,这是基于公开可用的MRI数据集的二元乳腺癌肿瘤分割的基准。这个数据集的创建,不仅为医学影像社区提供了易于访问的四个公共乳腺癌MRI数据集,还通过比较最先进的深度学习方法,为临床设置中的稳健和适应性强的模型提供了评估标准。
MMScan数据集:首个最大的多模态3D场景数据集,包含层次化的语言标注
数据猎手小k
3 月 19 日
阅读 3 分钟
393
2024-10-24,由上海人工智能实验室联合多所高校创建了MMScan,这是迄今为止最大的多模态3D场景数据集,包含了层次化的语言标注。数据集的建立,不仅推动了3D场景理解的研究进展,还为训练和评估多模态3D感知模型提供了宝贵的资源。
CCI3.0-HQ数据集:一个500GB的高质量中文预训练数据集
数据猎手小k
3 月 19 日
阅读 2 分钟
309
2024-09-19,由北京人工智能研究院(BAAI)创建的CCI3.0-HQ数据集,是一个通过新颖的两阶段混合过滤流程显著提升数据质量的高质量子集。这个数据集的意义在于,它不仅提高了数据的纯净度,还通过实验表明,使用该数据集训练的模型在多个基准测试中取得了优于现有中文数据集的性能,为中文语言模型的发展提供了重要的资源。
OVT-B:迄今为止最大的开放词汇多目标跟踪数据集
数据猎手小k
3 月 19 日
阅读 3 分钟
315
2024-10-23,由浙江大学软件技术学院和中国科学院深圳先进技术研究院等联合创建OVT-B,这个数据集的规模和多样性为开放词汇多目标跟踪(OVMOT)研究开辟了新的道路。
ChatSearch:多轮多模态对话上下文图像检索数据集,要求检索系统在对话中精准找到目标图像。
数据猎手小k
3 月 19 日
阅读 3 分钟
327
2024-10-24,由中国科学院自动化研究所与字节跳动公司合作创建了ChatSearch,这一数据集通过多轮对话上下文来检索图像,极大地推动了开放领域内对话式图像检索技术的发展。
W-Bench:是首个全面基准测试,评估水印方法在图像再生、全局编辑、局部编辑及图像到视频生成等图像编辑技术下的稳健性。
数据猎手小k
3 月 19 日
阅读 3 分钟
339
2024-10-24,由南洋理工大学和苏黎世联邦理工学院共同创建W-Bench,这是一个全面的基准测试,旨在评估水印方法对于包括图像再生、全局编辑、局部编辑和图像到视频生成在内的广泛图像编辑技术的鲁棒性。这个数据集的创建对于版权保护和知识产权的维护具有重要意义,尤其是在面对由大规模文本到图像模型驱动的高级图像编辑...
Infinity-MM:一个包含 4000 万个样本的开源视觉语言模型的大规模多模态指令数据集。
数据猎手小k
3 月 19 日
阅读 3 分钟
389
2024-10-15,由北京智源人工智能研究院、北京交通大学、北京邮电大学等机构联合创建了Infinity-MM,一个包含4000万个样本的大规模多模态指令数据集。这个数据集通过严格的质量过滤和去重,显著提升了开源模型与闭源模型性能的差距,为开源视觉语言模型的发展带来了重要意义。
SPOTS-10:含50,000张32×32灰度图像,专注十种动物图案识别,用于评估机器学习算法。
数据猎手小k
3 月 19 日
阅读 3 分钟
312
2024-10-28,由英国林肯大学工程与物理科学学院创建SPOTS-10,数据集主要解决夜间图像中基于动物独特体纹识别的复杂计算机视觉任务,为机器学习算法提供了宝贵的评估资源。
SciER:首个大规模科学文档中的实体和关系抽取数据集
数据猎手小k
3 月 19 日
阅读 2 分钟
334
2024-10-28,为科学文档中的实体和关系抽取领域带来了突破,提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集,这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。
AutoBench-V:一个专为 大型视觉语言模型基准测试而设计的全自动框架
数据猎手小k
3 月 19 日
阅读 3 分钟
304
2024-10-29,由美国圣母大学、MBZUAI和KAUST联合创建了AutoBench-V,意义在于提供了一个自动化的框架,能够根据模型能力的特定方面对大型视觉语言模型(LVLMs)进行基准测试,从而减少人为成本,提高评估的灵活性和效率。
AIDOVECL:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
数据猎手小k
3 月 19 日
阅读 3 分钟
353
2024-11-01,由伊利诺伊大学厄巴纳-香槟分校的研究团队创建的AIDOVECL数据集,通过AI生成的车辆图像,显著减少了手动标注工作,为自动驾驶、城市规划和环境监测等领域提供了丰富的眼水平车辆图像资源。
AndroidLab:一个系统化的Android代理框架,包含操作环境和可复现的基准测试,支持大型语言模型和多模态模型。
数据猎手小k
3 月 19 日
阅读 3 分钟
263
2024-10-31,由清华大学和北京大学共同创建的AndroidLab数据集,为安卓自主代理的训练和评估提供了一个包含操作环境、行动空间和可复现基准的系统框架,这对于推动安卓代理技术的发展具有重要意义。
GS-Blur数据集:首个基于3D场景合成的156,209对多样化真实感模糊图像数据集。
数据猎手小k
3 月 19 日
阅读 3 分钟
411
2024-10-31,由韩国首尔国立大学的研究团队创建的GS-Blur数据集,通过3D场景重建和相机视角移动合成了多样化的真实感模糊图像,为图像去模糊领域提供了一个大规模、高覆盖度的新工具,显著提升了去模糊算法在真实世界场景中的泛化能力。
SOEBench:一个包含4000个小目标对象,专门用于评估基于文本的小目标生成和编辑性能。
数据猎手小k
3 月 19 日
阅读 3 分钟
339
2024-11-03,由浙江工业大学、香港大学、悉尼大学等联合创建SOEBench,为量化评估基于文本的小目标生成提供了一个标准化的基准,这对于推动AI和计算机视觉领域中精确图像生成技术的发展具有重要意义。
Dyn-VQA:含1452动态问题的视觉问答数据集,需灵活提供知识检索方案,查询、工具与检索时间皆可变。
数据猎手小k
3 月 19 日
阅读 4 分钟
383
2024-11-05,由阿里巴巴集团创建Dyn-VQA数据集,它包含三种类型的“动态”问题,需要复杂的知识检索策略,这些问题的查询、工具和时间都是可变的。这个数据集的创建对于推动mRAG研究和解决现有VQA数据集无法充分反映启发式mRAGs在获取复杂知识方面的刚性问题具有重要意义。
免费数据集网站(不定期更新)
数据猎手小k
3 月 19 日
阅读 3 分钟
364
遇见数据集索引了国内外的大部分网站。首页有最新的数据集推荐:GitHub、Hugging Face、arXiv这些热门站点,都属于日级别的更新。
1
(current)
2
3
下一页
1
(current)
下一页