2025-03-22 ,由湖南大学、南开大学、湖南师范大学和天津医科大学肿瘤研究所共同创建的名为PCLT20K的PET-CT肺癌肿瘤分割数据集。该数据集包含21930对来自605名患者的PET-CT图像,是目前首个公开的大规模PET-CT肺癌肿瘤分割数据集,为相关领域的研究提供了丰富的数据资源,有助于推动PET-CT肺癌肿瘤分割技术的发展。
一、研究背景
肺癌是全球癌症相关死亡的主要原因之一。正电子发射断层扫描-计算机断层扫描(PET-CT)在肺癌肿瘤的成像和评估中发挥着关键作用,能够提供重要的代谢和解剖信息。准确地对PET-CT图像中的肺癌肿瘤进行分割对于有效的诊断、治疗计划制定以及治疗反应监测至关重要。
目前遇到困难和挑战:
1、数据集规模和公开性受限:现有的PET-CT肺癌肿瘤分割数据集大多规模较小且为私有数据集,这严重限制了基于深度学习的分割模型的性能提升和进一步发展。
2、图像质量问题:PET-CT图像存在诸如图像质量差、运动伪影或噪声、肿瘤形态复杂、边界不清晰等问题,给准确分割带来了巨大挑战。
3、多模态数据融合难题:PET图像和CT图像各自具有不同的特点和优势,如何有效地融合这两种模态的信息以提高分割精度是一个亟待解决的问题。
数据集链接:PCLT20K|医学图像分割数据集|肺癌肿瘤分割数据集
二、让我们一起来看一下PCLT20K
PCLT20K是一个包含21930对PET-CT图像的肺癌肿瘤分割数据集,具有大规模、高质量标注和公开可用的特点。
PCLT20K数据集收集自一家顶级医院的分子影像与医学科,涵盖了2016年6月至2020年4月期间605名患者的PET-CT图像。
数据集构建:
主要包括三个核心环节:数据收集、数据预处理以及数据标注。
1、数据收集:
在数据收集阶段,会严格筛选图像质量高、无干扰和运动伪影的PET-CT图像,以确保数据的可靠性和可用性。
2、数据预处理
进入数据预处理环节,对CT图像的Hounsfield Unit(HU)值进行裁剪和归一化处理,同时将PET图像转换为Standard Uptake Value(SUV)并进行归一化处理,以统一数据格式,为后续分析做准备。
3、数据标注
数据标注阶段采用三阶段标注流程。首先,由医生在医院诊断时对图像进行初步标注;接着,在第二阶段进行详细标注;最后,由另一位医生对标注内容进行审核和修正,形成最终的像素级标注,以确保标注的准确性和一致性。
数据集特点:
1、大规模:包含21930对PET-CT图像,是目前最大的公开PET-CT肺癌肿瘤分割数据集。
2、高质量标注:采用三阶段标注流程,由经验丰富的临床医生进行标注,确保标注的准确性和可靠性。
3、公开可用:数据集公开发布,为研究人员提供了丰富的数据资源,有助于推动相关领域的研究和发展。
基准测试:
基于PCLT20K数据集,作者建立了一个全面的基准测试,涵盖了多种评估指标,如交并比(IoU)、准确率、F1分数和95% Hausdorff距离。通过与其他12种最先进的分割方法进行比较,验证了所提出的CIPA模型在该数据集上的优越性能。
从 PCLT20K 数据集中挑选的 PET-CT 图像和相应肿瘤的一些示例。来自 PET 的代谢数据增强了对病变位置的敏感性,而来自 CT 的解剖细节有助于精确定位和形态学表征。
PET-CT 肿瘤分割数据集摘要
每个案例的切片数的比例统计
肿瘤区域像素计数的统计
肿瘤在中心点坐标上的分布
肿瘤的宽度和高度分布
(a) 我们提出的带有 Mamba 的跨模态交互式感知网络 (CIPA) 的总体架构,用于 PET-CT 图像中的肺肿瘤分割。CIPA 包括:(1) 一个通道整流模块 (CRM),用于学习共享表示;(2) 动态跨模态交互模块 (DCIM),用于有效集成位置和上下文信息。(b) CRM 图示。
(a) 动态跨模态交互模块 (DCIM) 的图示,主要包括卷积词干、局部 Mamba 块和区域 Mamba 块。黑色虚线箭头表示绕过区域 Mamba 块。(b) Mamba 块的结构。
我们的 CIPA 与 PCLT20K 数据集上其他分割方法的定性比较。绿色:真阳性,红色:假阳性,蓝色:假阴性。
DCIM 过程图示,带有两个示例。每个示例都说明了区域 Mamba 块处理的 PET 图像的特征图、本地 Mamba 块处理的 CT 图像的特征图,以及这两组信息融合产生的集成特征。
三、展望PCLT20K数据集应用
比如,你是一位放射科医生,每天都要处理大量的PET-CT图像,用来诊断肺癌。这些图像里,肿瘤的边界有时候很模糊,而且肿瘤的形状、大小都不一样,有时候还特别小,很容易被忽略。你得花很多时间仔细观察图像,才能确定肿瘤的位置和范围,这不仅工作量大,而且压力也很大。
现在有了PCLT20K这个数据集,情况就大不一样了!
这个数据集里有21930对PET-CT图像,每一对图像都标注了肿瘤的位置。这些标注是经验丰富的医生经过三轮审核后完成的,非常准确。
研究人员可以用这些图像来训练一种智能的算法,比如深度学习模型。这个模型学会了从图像中自动识别肿瘤的位置和边界。当你拿到一个新的PET-CT图像时,你只需要把图像输入这个模型,它就能快速、准确地帮你找到肿瘤的位置,并且清晰地标出来。这样,你就不需要花太多时间去寻找肿瘤了,可以更专注于分析肿瘤的性质,比如是不是恶性,需要什么样的治疗方案。
比如,有个患者来做检查,他的PET-CT图像显示肺部有一个很小的肿瘤,位置比较隐蔽。以前,你可能需要花十几分钟仔细观察图像才能确定肿瘤的位置。现在,你把图像输入这个经过PCLT20K数据集训练的模型,几秒钟就能得到结果,而且准确率很高。这样,你不仅能更快地完成诊断,还能有更多的时间去和其他医生讨论治疗方案,或者去安慰患者,让他们更了解自己的病情。
这就是PCLT20K数据集在实际应用中的一个具体场景,它让医生的工作变得更加高效,同时也提高了诊断的准确性,最终受益的还是患者。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。