在人工智能与材料科学加速融合的时代背景下,数据集正逐渐成为推动材料研究范式转变的核心引擎。从基于物理模型的传统计算方法,向基于数据驱动的智能预测过渡,不仅依赖于算法性能的提升,更依赖于高质量材料数据的支撑。数据的全面性、准确性与可重复性,直接决定了模型在材料属性预测、结构生成与功能发现等任务中的表现上限。
与图像或自然语言等领域不同,材料数据高度结构化,且具备复杂的物理约束、多尺度耦合和跨模态融合等特点,使得其数据集构建门槛更高。无论是第一性原理计算结果,还是实验测量数据,其采集、清洗、标准化、标注与存储均需严格遵循科学流程,以保障数据的可信度与泛化能力。
特别是晶体结构与材料属性数据的系统化整理,使得从基础物理建模到机器学习建模之间的路径变得更加可行。数据集中蕴含的形成能、带隙、体积、密度等多维信息,为研究者开展性质预测、材料筛选、以及潜在应用分析提供了坚实的数据基础。同时,标准化的格式、统一的命名体系及丰富的元数据,也显著提升了数据可追溯性和跨平台可用性。
为了帮助相关领域的学者更好地开展研究,HyperAI 超神经整理了当前业界广泛关注的材料科学数据集以及一键部署教程,涵盖量子材料、无机材料、晶体结构等多个关键方向,让复杂庞杂的材料数据,真正为研究者服务。
点击查看更多开源数据集:
材料数据集汇总
1 OMat24 无机材料数据集
预估大小:185.67 GB
下载地址:https://go.hyper.ai/hptlY
Meta 于 2024 年发布了 Open Materials 2024 (OMat24) 大规模开源数据集,该数据集包含超过 1.1 亿次以结构和成分多样性为重点的 DFT 计算结果,涵盖从平衡态和非平衡态结构取样的不同原子构型,是目前用于材料训练 DFT 替代模型的最大的开源数据集。
2 OQMD 开源量子材料数据集
预估大小:32.89 GB
下载地址:https://go.hyper.ai/qDyGS
OQMD 数据集包含了通过密度泛函理论 (DFT) 计算得到的超过 1,226,781 种材料的热力学和结构性质。数据来源于无机晶体结构数据库 (ICSD),包括了近 30 万种化合物的 DFT 总能量计算以及常见晶体结构的修饰,旨在存储和共享量子材料数据。
3 Materials Project 在线材料数据集
下载地址:https://go.hyper.ai/ELmmX
Materials Project 是一个大型开放式在线材料数据集。数据包括晶体结构、能量特性、电子结构和热力学性质,覆盖了材料表示、光电性质、力学性质、物理化学性质、稳定性和反应性、热力学性质以及磁性性质等多个方面。
4 LLM4Mat-Bench 晶体结构数据集
下载地址:https://go.hyper.ai/fSTbI
LLM4Mat-Bench 是一个用于材料属性预测的多模态语言模型评估数据集,收录了约 197 万条晶体结构样本,来自 10 个公开材料数据库,涵盖 45 种不同的材料物理与化学属性,是迄今为止用于评估大型语言模型 (LLM) 用于材料性能预测的性能的最大基准。
5 Material DFT 材料属性数据集
下载地址:https://go.hyper.ai/ju56p
该数据集提供了大量来自材料项目数据库高质量材料属性记录,涵盖了多种化学成分和物理属性,每条数据对应一种独特的材料,所有属性均通过密度泛函理论 (DFT) 计算获得。
经典教程
除了高质量数据外,HyperAI 超神经官网还上线了「MatterGen 无机材料设计模型 Demo」,该教程支持一键部署,极大降低使用门槛。
教程地址:https://go.hyper.ai/5mWaL
MatterGen 是微软推出的一款基于生成式 AI 的无机材料设计模型,旨在通过扩散模型直接生成具有特定化学、机械、电子或磁性属性的新材料。
具体而言,MatterGen 模型主要是基于扩散架构,先将原子类型、原子位置、周期性晶格逐步破坏为随机结构,然后训练一个模型反向完成这一过程,让模型学习如何从随机噪声逐步还原回原始材料结构。论文的通讯作者谢天认为,这与视频生成的核心思想非常相似。
以上就是 HyperAI 超神经为大家汇总的材料数据集,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
关于 HyperAI 超神经 (hyper.ai)
HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
* 为 1200+ 公开数据集提供国内加速下载节点
* 收录 300+ 经典及流行在线教程
* 解读 200+ AI4Science 论文案例
* 支持 500+ 相关词条查询
* 托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅:
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。