头图

NeurIPS,全称 Neural Information Processing Systems Conference,是神经信息处理系统的年度学术会议。该会议始于 1987 年,当时名为 NIPS。随着人工智能领域的快速发展,其影响力逐渐扩大,被越来越多的研究者和企业关注并熟知。为了更好地反映会议涵盖的广泛领域,NIPS 于 2017 年正式更名为 NeurIPS。

如今,NeurIPS 已经成为全球人工智能领域最具权威性的学术会议之一,吸引了来自世界各地的学者、企业家和研究人员。

今年是 NeurIPS 举办的第 38 届 (NeurIPS 2024),学术成果盛况依旧。据悉,今年共收到 15,671 篇有效投稿,最终接收了 4,000 篇左右论文。

HyperAI超神经从大会接收的数据集中为大家汇总了 9 个高质量开源数据集,覆盖云层去除、化学光谱、歌声音频、自动驾驶、昆虫标本等多个方面,大家可以按需下载~

点击了解更多顶会信息:
https://go.hyper.ai/vWvAW

添加神经星星微信(微信号:Hyperai01)备注「数据集」加入讨论群!

NeurIPS 2024 数据集汇总

1、AllClear 公共云层去除数据集

发布机构:康奈尔大学、哥伦比亚大学

预估大小:22.42 GB

下载地址https://go.hyper.ai/iRqtm

卫星图像中的云层对于下游应用构成了重大挑战,当前云去除研究面临的一个主要问题是缺乏全面的基准测试和足够大且多样化的训练数据集。而 AllClear 是目前最大的公共云层去除数据集,包含 23,742 个全球分布的兴趣区域 (ROIs),覆盖了多样的土地利用模式,总共包含 400 万张图像。

2、Muharaf 手写阿拉伯文数据集

发布机构:北卡罗来纳州立大学、卡斯利克圣灵大学、黎巴嫩历史协会

预估大小:9.83 GB

下载地址https://go.hyper.ai/yztH6

Muharaf 数据集是一个专注于手写阿拉伯文识别的机器学习数据集,包含了超过 1.6k 张历史手写页面图像,这些图像由档案阿拉伯语专家转录。每张文档图像都伴随着其文本行的空间多边形坐标以及基本页面元素的信息,旨在推进手写文本识别 (HTR) 领域的技术进步。

3、化学多模光谱数据集

发布机构:IBM Research 、苏黎世大学、 EPFL 、NCCR Catalysis

预估大小:9.7 GB

下载地址https://go.hyper.ai/ZdXk8

该数据集包含了从专利数据中的化学反应中提取的 79 万种分子的模拟 1H-NMR 、13C-NMR、HSQC-NMR 、红外和质谱(正负离子模式)光谱数据。这个数据集的核心价值在于其能够整合多种光谱模态的信息,模拟人类专家分析分子结构的方法,从而有望自动化结构解析,简化从合成到结构确定的分子发现流程。

4、GTSinger 歌声音频数据集

发布机构:浙江大学

预估大小:28.94 GB

下载地址https://go.hyper.ai/7jdi2

该数据集包含了 80.59 小时的专业录音棚录制的歌声,这些歌声由 20 位专业歌手演唱,覆盖了 9 种不同的语言,包括汉语、英语、日语、韩语等,为研究者提供了一个音色和风格极为丰富的资源库。

5、DrivingDojo 自动驾驶数据集

发布机构:中国科学院、美团、中国科学院香港创新研究院人工智能与机器人中心

下载地址https://go.hyper.ai/W3eDT

该数据集包含约 18k 个视频片段,涵盖北京、深圳、徐州等城市,并在不同的天气条件和日光条件下录制。它不仅包括了加速、紧急刹车、停车启动等纵向操作,还包括了掉头、超车和变道等横向操作。此外,数据集特别设计了包含大量多主体交互轨迹的视频,旨在提升世界模型在复杂驾驶环境中的预测和控制能力。

6、多模态昆虫生物多样性数据集

发布机构:生物多样性基因组学中心、圭尔夫大学、滑铁卢大学等

预估大小:37.71 GB

下载地址https://go.hyper.ai/Ljjwp

BIOSCAN-5M 数据集包含了超过 500 万昆虫标本的详细信息,显著扩展了现有的基于图像的生物数据集,不仅包括分类标签、原始核苷酸条形码序列、分配的条形码索引号和地理信息,还涵盖了标本大小等多模态信息,旨在理解和监测全球昆虫生物多样性。

7、OpenSatMap 高分辨率卫星数据集

发布机构:中国科学院、中国科学院香港信息系统研究所人工智能与机器人研究中心、腾讯地图和北京邮电大学

预估大小:57.7 GB

下载地址https://go.hyper.ai/g54aa

该数据集是一个高分辨率卫星数据集,专为大规模地图构建而设计。其特点是细粒度的实例级注释和高分辨率图像,包含了 3,787 张高分辨率卫星图像,其中不仅包括中国多个城市的图像,还涵盖全球 50 多个城市和 18 个国家的图像。

8、自然物种声音数据集

发布机构:马萨诸塞大学阿默斯特分校、iNaturalist

预估大小:131.26 GB

下载地址https://go.hyper.ai/lyTcc

该数据集收集了 230,000 个音频文件,捕捉了来自超过 5,500 个物种的声音,这些声音由全球超过 27,000 名记录者贡献。这个数据集包含了鸟类、哺乳动物、昆虫、爬行动物和两栖动物的声音,音频和物种标签来源于提交给 iNaturalist 的观察记录。

9、MINT-1T 文本图像对多模态数据集

发布机构:华盛顿大学、斯坦福大学、Salesforce Research 等

下载地址https://go.hyper.ai/kROfu

该数据集包含 1 万亿个文本标记和 34 亿张图像,其规模是之前最大开源数据集的 10 倍。它不仅包括 HTML 文档,还涵盖 PDF 文档和 ArXiv 论文,其多样性显著提升了科学文档的覆盖率。

10、AudioSetCaps 音频字幕数据集

发布机构:西北工业大学、西安联丰声学技术有限公司、南洋理工大学、中国科学院声学研究所等

下载地址https://go.hyper.ai/rTKdU

AudioSetCaps 是一个音频-字幕数据集,数据来源于 AudioSet 、YouTube-8M 和 VGGSound,包含 6,117,099 个 10 秒的音频文件。每个音频文件都附有一个描述性标题,还附有 3 个 Q&A 对作为生成最终标题的元数据(共 18,414,789 对 Q&A 数据)。

以上就是 HyperAI超神经为大家汇总的 NeurIPS 2024 数据集,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1300+ 公开数据集提供国内加速下载节点
  • 收录 400+ 经典及流行在线教程
  • 解读 200+ AI4Science 论文案例
  • 支持 500+ 相关词条查询
  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai


超神经HyperAI
1.3k 声望8.8k 粉丝