匹配正确率提升187.9%！华中科技大学CGCL实验室用自监督学习助力胶囊内窥镜图像拼接，「天眼」里也可看肠胃健康

在全球范围内，肠胃病正成为一个严峻的公共卫生挑战。据世界卫生组织国际癌症研究机构统计，胃病在人群中的发病率高达 80%，而在中国，肠胃病患者人数更是达到了 1.2 亿之多，且呈现出明显的年轻化趋势，关注肠胃健康迫在眉睫。

在这种情况下，胶囊内窥镜 (MCCE) 作为一种先进的诊断工具，因其非侵入性、无痛、无交叉感染的特点而被大家广泛关注。具体而言，MCCE 在胶囊中内置了无线摄影机，患者只需吞下这个胶囊，它就会经过食道、胃部，随后进入小肠，并在此过程中拍摄数万张影像，将其记录在患者的腰带硬碟中，最后，胶囊会随患者的粪便自然排出体外。根据拍摄的影像，医生能快速找出肠胃疾病或异常状况，极大地减轻了患者的医疗痛苦。

然而，由于胶囊内窥镜的运动主要依赖肠胃蠕动，其拍摄范围有限，MCCE 难以有效捕捉医生想要关注的特定区域（即感兴趣区域），往往只能拍摄到大量碎片化、视角不固定的图像。这些图像通常存在弱纹理、视角变化大、近距离拍摄变形等问题，给图像拼接、定位带来了极大挑战，也增加了精准检测病灶区域的难度。

对此，华中科技大学陆枫团队联合上海交通大学盛斌、中南民族大学、香港科技大学（广州）分校、香港理工大学、悉尼大学，提出了一种自监督的、基于片段匹配的胶囊内窥镜图像拼接方法 S2P-Matching。该方法通过模拟胶囊内窥镜在肠胃道中的拍摄行为，增强原始数据，并利用对比学习提取图像局部特征，通过 Transformer 模型进行图像 Patch 级别匹配，最终可将匹配精细化到像素级别，可显著提高图像拼接的准确性和成功率，增强早期发现和诊断肠胃道疾病的能力。

该成果以「S2P-Matching: Self-supervised Patch-based Matching Using Transformer for Capsule Endoscopic Images Stitching」为题，已被国际顶尖生物医学工程领域期刊 IEEE Transactions on Biomedical Engineering 接受发表。

研究亮点：

相比其他现有方法，S2P-Matching 在实际 MCCE 图像匹配上的表现更佳，尤其在解决肠胃道图像的视差和弱纹理问题上，匹配的正确率和成功率分别提高了 187.9% 和 55.8%
S2P-Matching 通过仿真胶囊内窥镜的拍摄行为，生成了仿真图像数据集，可以帮助模型学习不同视角下的图像特征
研究人员提出 S2P-Matching 方法，填补了传统内镜无法实现精准拼接与定位的空白，帮助医生更全面、清晰地观察肠胃道，提升肠胃疾病筛查的效率，从而推动无创内镜技术在临床中的更广泛应用

在这里插入图片描述

论文地址：
http://dx.doi.org/10.1109/TBME.2024.3462502

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

数据集：覆盖 2w+ 临床拍摄数据，专业医生精确标注

研究人员专注于分析实际临床场景中医疗专家们感兴趣区域的一系列连续图像，选取了国内某家医院 2016 年至 2019 年间的胶囊内窥镜检查记录。 为了验证 S2P-Matching 的有效性和准确性，他们选择了胶囊内窥镜在相对稳定时段连续拍摄的图像，作为训练和测试数据集，这些图像每隔 0.5 秒拍摄一次，每张的空间分辨率均为 480×480 像素。

具体而言，为确保随机分组并优化拼接效果的比较，研究人员从 213 名患者的资料中随机抽取样本，又从每位患者的图像序列中提取了 n×10 个连续帧（n 介于 5 至 15 之间），共计获得 21,526 张图像。经过严格筛选，最终保留了 20,862 张高质量图像。在此基础上，研究人员精选了 528 张图像组成测试集，并邀请两位合作医生对这些图像上的匹配点进行精确标注。

模型架构：补丁变形记，自监督 Transformer 带你畅游胶囊内窥镜的无缝拼接之旅

S2P-Matching 引入了改进的自监督对比学习方法，使用双分支编码器提取局部特征，并用这些特征训练 Transformer 模型，以进行 Patch 级别的图像匹配，最终通过 Patch-to-Pixel 方法进一步细化到像素级匹配。其主要流程包含 5 个部分，分别是数据增强 (Data Augmentation)、特征提取 (Deep Feature Descriptor Extraction)、Patch 级匹配 (Patch Level Matching、像素级配准 (Refine to Pixel-level Matching)、匹配点过滤 (Correct Correspondences Filtering)，如下图所示：

在这里插入图片描述

S2P-Matching 的架构图

数据增强 (Data Augmentation)：这部分的作用是数据增强，即通过仿射变换来模拟胶囊内窥镜摄像机在肠胃道内的行为，生成多视角的参考图像，帮助模型学习不同视角下的图像特征，避免手动标注的复杂性。
特征提取 (Deep Feature Descriptor Extraction)：这部分的作用是提取深度特征描述符，即采用改进的对比学习技术来提取局部特征。具体而言，通过一种双分支编码器，分别从图像补丁和背景补丁中提取特征，并将这些特征连接 (Combine) 起来，形成用于匹配的深度特征描述符。
Patch 级匹配 (Patch-level Matching)：这部分使用基于 Transformer 的模型来进行图像补丁级别匹配，该模型通过多头自注意力 (Self Attention) 机制扩展其感受野，从而有效识别图像中不同的补丁匹配对。此外，还通过双软最大化 (Dual-softmax) 操作生成匹配概率矩阵，用于确定补丁配对的置信度。
像素级配准 (Refine to Pixel-level Matching)：这部分将图像从补丁级别匹配精炼到像素级匹配，即在补丁级匹配基础上，使用 Patch-to-Pixel 方法将匹配细化到像素级别，进一步提升拼接精度。
匹配点过滤 (Correct Correspndence Filtering)：确定正确匹配对，即使用 MAGSAC 算法过滤掉错误的匹配对，确保得到准确的像素级匹配结果。

结合数据增强、对比学习、Transformer 网络和像素级匹配，S2P-Matching 能有效提升内窥镜图像的匹配和拼接精度，尤其在纹理较弱、近距离拍摄及旋转情况下表现突出，这为基于 MCCE 的肠胃道筛查提供了潜在的应用价值。未来，研究人员将进一步扩展该方法的应用场景，例如应对复杂的光照条件、气泡、模糊和遮挡等问题。

实验结论：匹配+拼接，S2P-Matching 在胶囊内窥镜图像中表现全能

为评估 S2P-Matching 方法的性能，研究人员将其与当前其他先进图像匹配算法（如 CAPS、ASIFT、DeepMatching、R2D2、SuperPoint 等）进行了图像匹配效果对比。其中，用于实验的数据集包含了从 2016 年到 2019 年间采集的胶囊内窥镜图像，覆盖了多种复杂场景，如弱纹理、近距离拍摄、大角度旋转等。

如下表所示，研究结果表明，在所有实验类型中（弱纹理、近距离拍摄、大角度旋转），S2P-Matching 表现出最高的 NCM（正确匹配点数）和 SR（成功率）分数，平均 NCM 达到了 311，平均 SR 为 81.7%。与传统算法相比，S2P-Matching 的匹配准确率显著提升。
在这里插入图片描述

不同方法的图像匹配性能对比

研究人员从不同数据集（弱纹理、近距离拍摄、大角度旋转）中选择了 3 组图像。并比较不同方法的匹配结果视觉图，每对输入图像包括以 0.5 秒间隔拍摄的 2 个胶囊内窥镜图像，每列的 3 对图像都是在非常接近的位置拍摄的，并且存在旋转方差，白色线表示对应的对，即匹配结果。不同方法得到的图像匹配结果视觉图如下图所示：

在这里插入图片描述

不同方法得到的图像匹配结果视觉图

可以看出，从第 1 行到第 3 行，随着纹理变弱与重复区域增多，各种方法匹配得到的匹配对数量都有不同程度的减少。例如，CAPS 和 ASIFT 只能提取少量的匹配对，并且存在不正确的匹配对，导致最终的图像拼接错误。DeepMatching 也只能提取有限数量的匹配对。R2d2 和 SuperPoint 匹配的数量很大，但存在很多不准确的匹配对。SuperGlue，LoFTR 和 TransforMatcher 正确匹配较少。与其他方法相比，S2P-Matching 实现了最佳的特征匹配性能，能够在不受杂质干扰和明显变换的情况下，提取足够数量的重要匹配对，从而保证最终的图像的拼接。

在临床应用中，胶囊内窥镜由于每次拍摄的图像范围有限，使得医生难以在一个较宽的视野中观察到感兴趣区域，这可能会影响诊断准确性。通常，一个完整的感兴趣区域会涉及多张有部分重叠的连续图像。因此，实现胶囊内窥镜图像的连续拼接是非常重要的。

如下图所示，研究人员对比不同方法对胶囊内镜图像连续帧的拼接，结果发现，S2P-Matching 的拼接效果最为自然，拼接精度最高，能够有效应对图像弱纹理和旋转等难题。与其他算法相比，该方法生成的匹配对最多，拼接结果无明显纹理错位、过度缩放和纹理连接等问题。

在这里插入图片描述

不同方法的图像拼接效果比较

进一步地，研究人员通过消融实验，研究了不同模块对最终效果的影响。结果显示，结合图像衍生和深度特征描述符的 S2P-Matching 框架能够显著提高图像匹配的准确性，特别是在处理复杂的胶囊内窥镜图像时效果更佳。此外，S2P-Matching 在处理不同角度的旋转拍摄图像时表现优异，能够很好地适应大角度旋转的图像匹配任务，其准确度优于其他方法。

综上，S2P-Matching 在复杂的胶囊内窥镜图像匹配任务中取得了更高的匹配精度、更好的拼接效果，尤其是在弱纹理、旋转及近距离拍摄等复杂情况下表现出明显优势。

智能医疗的领航者

随着医疗技术的进步，胶囊内窥镜成为了探索人体内部世界的「小镜头」，这种无创检查方式在 AI 的支持下，不仅减轻了患者的痛苦，还为医生提供了宝贵的诊断依据。

值得一提的是，论文的第一作者、华中科技大学的陆枫教授持续关注 AI 在疾病诊疗中的应用。除了上述研究外，她还曾与悉尼大学团队合作，在 IEEE/ACM Transactions on Computational Biology and Bioinformatics 上发表了论文「Fine-Grained Lesion Classification Framework for Early Auxiliary Diagnosis」，提出了一种针对胶囊内窥镜得细粒度病灶分类框架，该框架能够从来自胶囊内窥镜的医学影像中准确的识别出不同尺度大小的候选病灶，辅助医生进行早期诊断。

论文原文：
https://ieeexplore.ieee.org/abstract/document/10077722

陆枫教授的研究成果颇丰，已在 Nat Med、IEEE Network、TBME、TCBB、TIOT、AAAI 等国际顶级期刊和会议上发表了 30 余篇学术论文，并获得了多项国内外专利和技术奖项。

在这里插入图片描述

陆枫

陆枫个人主页：
http://faculty.hust.edu.cn/lufeng2/zh_CN/index.htm

她所在研究团队隶属华中科技大学 CGCL 实验室，该实验室是科技部重点领域创新团队、教育部「长江学者和创新团队发展计划」创新团队牵头单位、湖北省自然科学基金创新团队，承担了近 400 项科研项目，拥有丰富的医疗数据资源和丰富计算资源，是国际上极少数可以进行产业级大尺度数据分析和智能医疗研究的实验室之一。
华中科技大学 CGCL 实验室主页：
https://grid.hust.edu.cn/

陆枫教授的团队不仅凭借自身过硬的技术和丰富的资源取得了显著成就，而且还积极寻求与国内外顶尖高校的合作，例如，在本文的研究中，陆枫团队就与 AI 医疗领域的资深学者盛斌教授展开了合作。盛斌教授长期关注 AI 在医疗中的应用，在该领域发表了一系列研究成果。比如构建全球首个面向糖尿病诊疗的视觉-大语言模型集成系统 DeepDR-LLM，为基层医生提供个性化的糖尿病管理意见及糖尿病视网膜病变辅助诊断结果。

未来，在这些杰出研究人员的共同推动下，我们期待能实现更精准、高效的医疗诊断，切实提升患者的医疗体验。

参考资料：
1.https://gleneagles.hk/sc/medical-treatments/capsule-endoscopy
2.https://m.21jingji.com/article/20240409/herald/244d34d9d0c815096fa8f3a25ca5cced_zaker.html

匹配正确率提升187.9%！华中科技大学CGCL实验室用自监督学习助力胶囊内窥镜图像拼接，「天眼」里也可看肠胃健康

数据集：覆盖 2w+ 临床拍摄数据，专业医生精确标注

模型架构：补丁变形记，自监督 Transformer 带你畅游胶囊内窥镜的无缝拼接之旅

实验结论：匹配+拼接，S2P-Matching 在胶囊内窥镜图像中表现全能

智能医疗的领航者

超神经HyperAI

引用和评论

【Triton 教程】triton_language.arange

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

祛魅最热门的通用Agent赛道