头图

近年来,随着几部悬疑、犯罪类题材的影视剧叫好卖座,一个充满神秘色彩的学科也被带到了观众面前——法医学。简单来说,法医学就如同隐藏于黑暗中寻求真相的「福尔摩斯」,它凭借专业的知识和先进的技术,通过解读遗骸、物证中的无声证言,能够做到识骨寻踪,为无数棘手案件提供侦破方向,可谓是保障司法公正的坚固基石,重要性自然不言而喻。

而在众多法医学的研究领域中,遗骸的性别鉴定又是极为重要的一环。当面对森森白骨时,以往的方法主要依赖于经验丰富的法医学家按照已发布的标准进行推测和评估,然而这些方法通常会受到主观因素的影响,难免使结果发生偏差。如今在计算机和深度学习技术大行其道的当下,如何借用科学之手,解决其受到的人类偏见的影响便成为一个新课题。

近期,澳大利亚西澳大学、新南威尔士大学和印度尼西亚哈萨努丁大学的团队,提出了使用基于深度学习的自动化框架,以提升性别判断的准确性,并减少了认知偏见的影响。

该研究利用印度尼西亚一家医院的 200 次颅骨 CT 扫描,训练并测试了 3 种基于深度学习的网络配置,其中最准确的深度学习框架能够将性别和颅骨特征结合在一起进行判断,分类准确率可达 97%,显著高于人类观察者的 82% 。该实验证实了深度学习框架在法医人类学中具有深度应用的潜力。

相关研究成果以「Deep learning versus human assessors: forensic sex estimation from three-dimensional computed tomography scans」为题,发表于学术期刊 Scientific Reports 。

论文地址:
https://www.nature.com/articles/s41598-024-81718-y

开源项目「awesome-ai4s」汇集了 200 余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

更进一步让 AI「可信可用」

在法医人类学中,骨骼结构隐藏着诸多性别特征上的差异,特别是在颅骨中。现代法医实践中最流行的一种形态学颅骨性别鉴定方法是由 Phillip L. Walker 所提出的 5 个颅骨二态性特征(以下称为 Walker 特征),即观察男性和女性颅骨在颏隆凸 (mental eminence, MEN) 、眉间 (glabella, GLA) 、眶上缘 (supraorbital margin, SUP) 、颈区 (nuchal crest, NUC) 和乳突 (mastoid process, MAS) 方面的差异。

比如研究中提到,男性的眉间通常较为突出、宽阔,可能有明显隆起或结节状;女性的眉间则较为平滑、纤细。男性的眼眶形状多为方形或长方形,四角锐利且整体更为硬朗;女性眼眶则更倾向于圆形,眼眶边缘过度自然、柔和,没有明显棱角。

不过,随着法医人类学活动的发展,该方法也出现了一些不适用的情况。一方面,该方法为代表的鉴别手段所分析得到的数据样本均来自于物理记录,即需要收集大量的物理骨骼才能得到足够的样本;另一方面,该方法的样本来自于生活在 19 世纪和 20 世纪的英、美及美洲原住民,这也导致研究对象在时间效力和空间效力上具有一定的局限性。

而虚拟人类学的出现为法医人类学实践提供了新出路。在数据集获取方面,不似 Walker 研究时采用的数据收集方式,临床数字成像技术如计算机断层扫描 (CT) 能够使研究人员获得足够多的骨骼数据集,相比物理骨骼的收集,通过临床成像记录的虚拟骨骼数据集无疑更容易建立。此外,随着 CT 在现代医学中的广泛使用,通过该手段得到的数据集也更能代表当代人群。

在分析处理方面,基于深度学习的技术也被应用于法医人类学当中,研究人员利用深度学习来处理大型数据集,构建评估骨骼性别的模型,以协助法医人类学家进行生物学评估。比如 Bewes 等人开发的 GoogleNet,将从头颅 CT 扫描的 2D 侧向图像进行 3D 重建,并据此进行骨骼性别鉴定,实现了男性 96% 和女性 94% 的分辨准确率。

值得注意的是,虽然这些方法都已经取得长足进展,但以往基于深度学习的骨骼性别鉴定方法仍会存在一些挑战——全自动和可解释性。

首先,一些研究依靠的是商业软件来去除周围的结构,并通过用经验值设定 Hounsfield Unit (HU) 阈值来提取头骨,这可能会受到软件可访问性、噪声、伪影、不需要的骨骼结构以及 HU 值可变性等问题的影响。

其次,与人类观察者识别颅骨特征不同,基于深度学习的网络通常被称为「黑匣子」,其中隐藏层通常难以被结构,因此也使得基于深度学习的网络存在着可解释性的限制。

多种设计造就超越人类的 AI 框架

在本次研究中,研究人员开发了一个全自动 AI 框架,使用颅骨 CT 扫描来进行法医学性别鉴定,同时通过 Walker 所提特征对模型进行检验。

该 AI 框架由一个预处理阶段和一个性别分类网络组成。首先使用预训练的深度学习网络进行颅骨分割,随后不同的分类网络配置使用不同的输入组成进行训练,采用多任务学习来生成 Walker 特征分数并进行性别鉴定,或采用单任务学习来进行性别鉴定。具体网络设置如下图所示:

基于深度学习的网络配置及其相关输出

* I 为预处理的 CT 图像;

* (I, S) 为双通道输入,包括预处理的 CT 图像和颅骨面罩;

* I∩S 表示单独的颅骨区域;

* N1 和 N2 采用组合损失函数,N3 采用二元交叉熵损失函数。

3 种深度学习网络的变体 N1 、 N2 和 N3 基于 ResNet 构建,ResNet 由一个 Input Block 和 3 个 Residual Block 组成,包括 3D 卷积 (Conv3D) 、批量归一化 (Batch Norm) 和修正线性单元 (rectified linear unit,ReLU) 激活层。 Input Block 由 32 个滤波器组成,Residual Block 分别有 64 、 128 和 256 个滤波器。 Conv3D 的内核大小为 3 x 3 x 3 。如下图所示:

ResNet 主干网

由 ResNet 主干网构建的 3 种网络架构变体 N1 、 N2 、 N3

所有网络均使用 Python v3.9 在 Torch 2.0 中实现,在具有 16GB RAM 的 NVIDIA Tesla P100 GPU 上进行训练。

本次研究中所使用的数据集来自于印度尼西亚瓦希丁・苏迪罗索多综合医院 (Dr Wahidin Sudirohusodo General Hospital, RSWS),主要包含了 2020 年 1 月至 2022 年 8 月期间在该医院进行放射学检查的部分患者的多层 CT 扫描 (Multi-Silce CT, MSCT),共计 200 张,其中女性 87 名,男性 113 名。数据集中的 166 张图像用于训练,34 张图像用于测试。

具体来看 3 种网络架构,N2 的多任务配置(在不同分支分别估计 Walker 的颅骨二形态特征分数和性别)在不同输入下实现了最高的 AUROC 和准确性,是性别鉴定最平衡的模型。当以颅骨区域作为输入时,N2 达到了最高 0.97 的准确率和 0.30 的最低对数损失。

N1 的多任务配置(按顺序估计 Walker 的颅骨二形态特征分数,再估计性别)使用颅骨区域作为输入时,其准确率为 0.91,但在不同输入下的 AUROC 低于 N2 和 N3,且对数损失更高。

单任务网络 N3(直接估计性别)在不同输入下的 AUROC 与 N2 相似,但当使用颅骨作为输入时,其准确率仅为 0.85,为所有网络中最低。具体结果如下图所示:

3 种网络模型与人类观察者的性能指标

值得注意的是,当与人类观察者的表现相比较时,3 种基于深度学习的网络模型在性别分类方面都取得了比人类观察者更高的准确性。具体来看,N2 实现了 97% 最高的性别鉴定准确率,而人类观察者仅为 82% 。

为了提升网络决策过程的可解释性,研究团队采用梯度加权类激活映射 (Gradient-weighted class Activation Mapping, Grad-CAM) 来可视化网络识别的判别性颅骨区域。 Grad-CAM 是一种用于解释卷积神经网络决策的方法,其关键思想是将输出类别的梯度与该层的输出相乘,然后取平均,得到一个「粗糙」的热力图,该热力图可以被放大并叠加到原始图像上,已显示模型在分类时最关注的区域。其优点是可用于任何卷积神经网络,无需进行结构修改或重新训练。

下图显示了使用头骨作为输入时,网络 N1 和 N2 的 Walker 特征分支中每个特征预测相关的 Grad-CAM 热图,其中 a 、 b 、 c 、 d 、 e 依次为 GLA 、 MAS 、 MEN 、 NUC 、 SUP,热图特别突出了 GLA 和 NUC 。

下图显示了使用头骨作为输入时,3 个网络的输出 Grad-CAM 热图。可以观察到,除 GLA 被激活外,颅骨周围的区域也被激活,尤其 N3 的热图更为明显。鉴于 CT 图像被预处理为统一的物理大小,这可能表明模型正在分析整个头骨的形态,也许是它的大小和形状,因为头骨的大小和形状是反应人类性别二态性的关键特征,男性头骨总体比女性会更大、更重。

总而言之,该实验通过证明基于深度学习的全自动 AI 框架在提高骨骼性别鉴定的准确性方面的有效性,证实了其相对于已开发的基础方法,具有明显更广泛的法医适用性。同时,该框架还有着超越人类观察者的潜力,挖掘了其辅助法医人类学更加智慧化、自动化的潜力。

另外 Grad-CAM 也表明了基于深度学习的网络模型在通过颅骨鉴定性别时可解释性。这些整合为法医人类学带来了更加标准化和客观的评估,减少了认知偏见和可变性的影响。

AI 开启法医人类学新篇章

事实上,关于通过 AI 赋能法医人类学中性别鉴定的研究并不在少数,无独有偶,Scientific Reports 上收录的相关论文便揭示了诸多突破性方法。

例如一篇题为「Sex estimation using skull silhouette images from postmortem computed tomography by deep learning」的研究,通过 CT 扫描获得二维剪影图像进行深度学习,通过增强颅骨的轮廓形状,然后以不同角度观察剪影图像和多数投票来进行性别判定。

论文地址:
https://www.nature.com/articles/s41598-024-74703-y

四川大学计算机学院、四川大学华西基础医学与法医学院合作开发的一种基于深度学习的颅面重建方法,成功从 CT 扫描的颅骨数据中自动复原出颅面图像。其中提到,研究团队突破颅面复原技术难点,开发了首个颅面重建人脸检索系统,该系统根据一个颅骨数据生成一系列不同年龄和性别但身份一致的复原人脸,消除了年龄甚至形变变化对身份识别的影响,从而提高识别的精度。

论文以「CR-GAN: Automatic craniofacial reconstruction for personal identification」为题,发表于模式识别领域顶级期刊 Pattern Recognition 。

论文地址:
https://www.sciencedirect.com/science/article/abs/pii/S0031320321005768

当然,根据骨骼来鉴定性别并非只能依靠颅骨,正如前文所提,骨骼结构中隐藏诸多男女特征上的差异化信息,比如由于男女两性骨盆所担负的生理功能不同,骨盆在性别分辨方面具有十分明显差异化特征。根据这些特征,相关的基于深度学习鉴定性别的方法也在同步研究。

总而言之,AI 的普及为法医人类学中的性别鉴定问题提供了一个客观而可持续的解决方案,同时也让这个神秘而小众的领域从古老的鉴定方式中走了出来,逐渐像其他领域一样拥抱智慧化、自动化。

参考资料:
1.https://www.nature.com/articles/s41598-024-81718-y
2.https://www.csiro.au/en/news/All/News/2025/February/CSIRO-develops-AI-tool-for-rapid-identification-in-forensic-investigations
3.https://blog.csdn.net/qq\_68308828/article/details/132663304
4.https://mp.weixin.qq.com/s/bpZCZMM5MJRShhZvI2fcsw

最后,给大家推荐一个学术直播!3 月 7 日中午 12:00,最新一期的 Meet AI4S 直播以「AI 时代她力量:硬核技术下的蜕变」为主题,邀请到了华中科技大学副教授黄宏老师、上海人工智能实验室 AI for Science 中心青年研究员周东展、上海交通大学自然科学研究院助理研究员周冰心,介绍个人成果,分享科研经验。


超神经HyperAI
1.3k 声望8.8k 粉丝