写在之前
随着科学技术的飞速发展,光学显微镜、电子显微镜已经成为材料科学领域中关键表征手段,助你探索这个神奇的微观世界。
然而,典型材料图像表征过程:从材料制备、到结构表征、以及后期图像分析与标注,均需要繁琐的人工完成(如下图),不仅效率低误差高,而且会遗漏掉众多微小拓扑结构的差异,无法全面理解材料的结构特性,极大降低新材料新结构的发现和应用。
Source: Xiaoxu Zhao et. al., Nature 581, 171–177, 2020
为了解决这些问题,越来越多的研究者开始尝试将人工智能(AI)技术应用于材料图像表征。
在这篇文章中,我们将结合 Notebook 实例,从(粗略划分的)AI 三个发展阶段(传统机器学习、深度学习、大规模预训练模型)的技术特点出发,探讨如何应用这些技术到材料图像表征中。Notebook 将深入浅出地为你解析相关技术从基本原理到实际应用的过程。即使你是实验背景的从业人员,也能轻松通过阅读 Notebook 学习到如何运用 AI 技术助力材料图像表征,让你的研究更上一层楼!
对于 AI 背景的同学来说,希望这个系列的 Notebook 能帮助你更深入地理解 AI 在材料图像表征领域的应用。实际上,AI 与图像表征的结合是 AI for Science 的一个非常重要且具有广阔前景的发展方向。从 AI 的发展视角来看,无论是材料电镜图像、CT 图像还是解决蛋白质结构的冷冻电镜图像等等,目前仍处于相对初级的阶段。说到这里,本文作者仿佛突然明白,怪不得何恺明大神也要投身于 AI for science 了 ~(详见这里)。
1. 传统机器学习阶段
传统机器学习(Traditional Machine Learning, TML)是 AI 技术的初级阶段,主要基于手工设计的特征(feature engineering)和简单的模型。其核心思想是从大量数据中学习到某种模式或规律,然后将这些模式应用于新的数据以进行预测或分类。
在材料图像表征中,传统机器学习方法主要以如下方式被应用:
1. 数据预处理:对图像进行去噪、对比度增强等处理,以便于后续特征提取和分析。
2. 特征提取:手工设计一些特征(如纹理、颜色、形状、尺度等),用于描述材料的微观结构和性能。
3. 模型训练与预测:利用提取到的特征,训练一些简单的模型(如决策树、支持向量机、k-means聚类等),实现对新样本的预测或分类。
传统机器学习方法的优点是相对直观,计算复杂度相对较低,但缺点是特征提取过程依赖于领域知识和人工经验,可能无法充分挖掘数据中的潜在信息。
在这里,我们将从一篇文章内容出发[1],通过 Notebook 介绍用 k-means 算法做材料同一位置多种信号(这里具体是明场和双折射图像的逐像素信息)的无监督聚类,并根据聚类做标注(这里具体是得到三个独特的数据簇刚好可以认为代表高吸收薄片、部分剥离的纳米片和剥离良好的二维片)。
在线 Notebook链接:https://nb.bohrium.dp.tech/detail/1314
我们已为你预先配置好了所需的环境配置,你无需担心环境配置和依赖问题,仅需要专注于学习本身。依靠免费的 2 核 4G 计算资源,你可以在平台上直接运行和修改代码。
2. 深度学习阶段
深度学习(Deep Learning, DL)是 AI 技术的进阶阶段,主要基于多层神经网络和自动特征学习。与传统机器学习相比,深度学习方法能够在大规模数据集上自动学习到高层次和抽象的特征表示,从而实现更为复杂和强大的功能。
在电镜材料表征中,深度学习方法主要以如下方式被应用:
1. 语义分割:利用卷积神经网络(CNN)对图像进行像素级别的分类,实现对材料微观结构的精细刻画。
- 目标检测与识别:利用深度学习模型自动检测和识别电镜图像中的特定结构(如晶粒、相界、缺陷等)。
- 材料性能预测:利用深度学习模型对图像进行特征提取和表示学习,然后结合其他物理、化学数据进行性能预测。
深度学习方法的优点是能够自动学习到有效的特征表示,具有较高的预测和分类准确率,但缺点是计算复杂度较高,需要大量的训练数据和计算资源。
在这里,我们将同样从一篇文章内容出发[2],通过 Notebook 介绍的是卷积神经网络的基本原理以及相应技术如何处理扫描电子显微镜(SEM),透射电子显微镜(TEM)以及扫描透射电子显微镜(STEM)图像中噪声、畸变等造成的失真问题。
在线 Notebook链接:https://nb.bohrium.dp.tech/detail/1315
3. 大规模预训练模型阶段
大规模预训练模型是近年来AI领域的研究热点,通过在大量无标签数据上进行预训练,模型可以学习到丰富的领域知识和语义信息。在预训练模型的基础上,我们可以使用少量有标签数据进行微调,以实现在特定任务上的高效学习。这种方法在自然语言处理、计算机视觉等领域已经取得了显著的成功。
尽管大规模预训练模型在材料图像表征领域的应用还处于早期阶段,但我们可以借鉴现有图像大模型的方法,尝试使用 zero-shot 或 few-shot learning 技术处理材料图像表征。例如,我们可以通过预训练一个图像分类模型,然后在少量标注的实验图像上进行微调,实现对材料表征的自动识别和分类。从长远来看,大规模预训练模型将为材料表征领域带来巨大的潜力和发展空间。
在这里,我们给出一个图像分割预训练模型(SAM,Segment Anyting Model)的 Notebook 案例,感兴趣的读者不妨把实验图片放进去试试看效果怎么样!
在线 Notebook链接:https://nb.bohrium.dp.tech/detail/1021
总结
总之,AI 技术在材料图像表征领域的应用已经取得了显著的进展,从传统机器学习到大规模预训练模型,这些技术不仅提高了实验室工作的效率和准确性,还为材料科学研究带来了新的可能性。随着 AI 技术的不断发展,我们有理由相信,材料图像表征将迎来一个更加智能化、自动化的未来。
通过本文的介绍和 Notebook 实例的演示,相信专业人士和研究者们可以更加深入地了解 AI 技术在材料图像表征中的实际应用,从而更好地开展相关的研究工作。
欢迎关注我们的微信公众号NBHub,获取更多有趣的 Notebook 实践~感兴趣的童鞋可以查看原文:https://mp.weixin.qq.com/s?__biz=Mzg5NTk3Nzk3MQ==&mid=2247483...
参考文献:
[1] Abedin M J, Barua T, Shaibani M, et al. A high throughput and unbiased machine learning approach for classification of graphene dispersions[J]. Advanced Science, 2020, 7(20): 2001600. https://doi.org/10.1002/advs.202001600.[2] Lobato, I., T. Friedrich, and S. Van Aert. "Deep convolutional neural networks to restore single-shot electron microscopy images." arXiv preprint arXiv:2303.17025 (2023).
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。