::: block-1

文献介绍

文献题目: STASCAN 通过深度学习破译空间转录组学中的高分辨率细胞分布图 \
研究团队: 杨运桂(中国国家生物信息中心)、张世华(中国科学院数学与系统科学研究院)\
发表时间: 2024-10-22 \
发表期刊: Genome Biology \
影响因子: 10.1(2024年)\
DOI: 10.1186/s13059-024-03421-5
:::

摘要

空间转录组学技术已广泛应用于通过解析组织中的基因表达谱来解码细胞分布。然而,测序技术仍然限制了创建精细分辨率的空间细胞类型图的能力。为此,作者开发了一种新颖的基于深度学习的方法 STASCAN,通过整合基因表达谱和组织学图像的细胞特征学习来预测捕获或未知区域的空间细胞分布,在这些区域中,只有组织学图像可用。STASCAN 成功应用于来自不同空间转录组学技术的不同数据集,并在破译更高分辨率的细胞分布和解析增强的组织结构方面显示出显着的优势。

前言

细胞的空间分布和功能密切相关,它们的表征可以为了解它们的功能以及对生物过程(包括发育和疾病)的潜在影响提供有价值的见解。新兴的空间转录组学 (ST) 技术允许捕获基因表达,同时保留组织中的空间背景,这提高了我们对不同物种不同器官的结构和细胞组成的理解。

目前的 ST 技术通常分为两类:(1)基于成像的方法,通过原位测序或原位杂交捕获探针靶向的基因,可以实现单细胞分辨率,但受到低通量和转录组覆盖率的限制。尽管一些新兴的基于成像的方法已经以高通量扩展到整个转录组水平,但它们仍然受到预先设计的基因组的偏差的影响,并受到昂贵的专业设备和劳动密集型工作流程的限制;(2) 基于下一代测序 (NGS) 的方法,在测序前捕获组织中的转录本并结合编码的空间位置信息。相比之下,基于 NGS 的方法可实现高通量和无偏覆盖范围,用于测量整个转录组水平的基因表达。基于 NGS 的方法的更容易获得的商业产品也促进了其广泛采用。

然而,基于 NGS 的方法仍然存在一些局限性。重要的一个是空间分辨率受到捕获域(定义为 spots)的面积和稀疏性的限制。例如,10 × Visium 的 spots 直径为 55 μm,对于以单细胞分辨率捕获细胞来说太大了。此外,spots 之间的中心距为 100 μm,这使得整个组织的大约 54-80% 是未知的,导致转录本的空间分辨率大幅降低。此外,DBiT-seq 旨在产生更小、更密集的 spots(宽度为 10、25 或 50 μm)。尽管它提供了更高的空间分辨率,但未知区域的转录信息仍然不可避免地丢失。其他方法,例如 Slide-seq 和 Stereo-seq,也旨在通过使用小而密集的 spots 来实现单细胞或亚细胞分辨率。然而,它们也受到单个 spots 内多个细胞部分这一事实的影响。

此外,未知区域中未捕获的细胞导致 2D 和 3D 水平的空间细胞分辨率有限。目前,ST 技术使我们能够描绘平面组织切片的细胞图。通过按顺序连续堆叠来自平面组织切片的 ST 数据,可以构建 3D 细胞图来破译器官或生物体的自然形态,并更好地解释不同组织结构之间的异质性。然而,高昂的成本仅允许对一小部分连续组织切片进行测序,从而产生沿 z 轴未知区域和最终低 3D 分辨率的问题。

为了提高 ST 技术的细胞分辨率,当前的计算方法通常通过将 ST 数据与单细胞参考的标签集成并注释捕获域的细胞类型来解析基因谱以执行细胞类型反卷积,例如 Cell2location、Seurat 和 RCTD。然而,反卷积方法存在潜在的 "dropout",导致 ST 数据和单细胞参考中的标记基因之间仅部分重叠。此外,它们很容易受到单细胞参考数据的不准确细胞类型注释的影响,在选择标记基因时引入偏差,这些标记基因的表达可能无法检测或因跨平台和批次效应而出现波动,或者在不同的标记基因中表达不一致。更重要的是,这些方法的目的只是通过推断细胞类型的比例或丰度来提高捕获域内的计算细胞分辨率。然而,如何通过预测未知区域中的细胞分布并估算 z 轴上组织切片之间的细胞分布来增强空间细胞分辨率仍有待解决。

除了来自测序数据的基因表达信息外,形态信息通常也用于识别和表征医学图像的细胞类型。目前的反卷积方法往往关注基因表达数据,通常忽略了 ST 数据集图像所携带的形态信息,造成图像资源的浪费。更重要的是,形态信息还有助于提高细胞注释的准确性。已经针对 ST 数据开发了一些整合基因表达和形态信息的新兴计算方法。例如,Tangram 合成组织学图像来估计单细胞反卷积过程中每个 spot 的细胞比例,而 MUSE 结合转录谱和形态特征来表征细胞和组织区域。然而,它们都没有涉及未知领域空间细胞分辨率的提高。此外,一些开发的方法利用 ST 数据和组织学图像来增强捕获域甚至未知区域的空间基因图谱。然而,由于上述细胞类型反卷积方法的局限性以及提高基因表达估算模型准确性的需要,特别是在复杂组织类型中进行预测时,仍然阻碍了直接使用增强的基因表达谱来预测细胞类型。

为此,作者引入了 STASCAN,一种空间转录组学驱动的空间细胞注释工具。STASCAN 能够在组织切片的未知区域中进行细胞类型预测,并对捕获区域内的细胞进行细分解析注释,从而大大提高空间细胞分辨率。此外,STASCAN 仅根据相邻切片的组织学图像成功生成细胞分布图,从而能够构建更详细的器官 3D 细胞图谱,同时降低实验成本。此外,作者评估了 STASCAN 在不同 ST 技术的不同数据集中的适用性。作者持续观察到 STASCAN 在细胞粒度和解析细胞模式的综合表征方面的显着改进。例如,STASCAN 识别出微米级的椭圆形结构,该结构被证实为气管壁附近的平滑肌束,尚未被其他方法识别。此外,STASCAN 提供了人类心脏和小鼠胚胎组织中细胞类型生态位的精细分布,有助于我们了解疾病和发育状态。

研究结果

1. STASCAN 概述

STASCAN 采用深度学习模型,利用 ST 技术的空间基因表达谱和相应的组织学图像。利用这些多模态数据,STASCAN 通过生成捕获区域和未知区域中的 spots 或细分 spots 的细胞类型注释,描绘了组织中的高分辨率细胞分布图(Fig. 1a)。首先,STASCAN 根据位置信息从载玻片图像中提取 spot 图像,并在预标记过程中使用反卷积根据空间基因表达推断每个 spot 的高度可靠的细胞标签。其次,STASCAN 构建了一个基础卷积神经网络(CNN)模型(VGG16 架构),并使用细胞类型标记 spot 图像作为输入来训练基础 CNN 模型。此外,STASCAN 提供可选的特定部分训练,可以通过迁移学习对基本 CNN 模型进行微调,以提高特定单个部分的预测精度。最后,通过充分的训练,STASCAN 可以仅根据组织学图像准确预测细胞类型(Fig. 1a, Additional file 1: Fig. S1 and "Methods")。

:::block-1
Fig.1 STASCAN 概述
:::

STASCAN 进一步设计为三个应用模块:(1)对未知区域中嵌入的未见 spots 进行细胞注释,其基于从测量的原始 spots 中学习图像特征,为每个未见 spots 分配预测的细胞类型,并合并未见和原始 spots 以实现超分辨率细胞分布(Fig. 1b);(2)细分 spots 的细胞注释,利用从具有可选伪标签的细分 spot 图像中学习到的特征来获得亚分辨率细胞分布(Fig. 1c);(3)未见切片的细胞注释,它使用可选的伪标签从测量的 ST 切片中学习 spot 图像,以预测连续切片中相邻未知切片图像上的细胞分布,从而构建 3D 细胞模型(Fig. 1d)。

2. STASCAN 仅通过图像即可实现更精确的细胞注释和细胞类型预测

为了定量评估 STASCAN 的性能,作者首先将其应用于由 10× Visium 技术生成的综合涡虫(Schmidtea mediterranea)数据集,其中包括 10 个已测序的 ST 切片(包含空间基因表达数据和组织学图像)和 ST 切片相邻的 9 个未测序切片(仅包含组织学图像)。鉴于涡虫数据集的全面性,作者首先使用从 10 个收集的切片中提取的 1829 个 spot 图像构建了一个基础模型,以学习通过测序信息识别的 7 种主要细胞类型的特征,包括表皮、肠道、肌肉、新生细胞、神经元、实质细胞、和分泌细胞(Additional file 1: Fig. S2a, b, Additional file 2: Table S1 and "Methods")。尽管由于新生细胞和实质细胞类型缺乏训练样本,预测这两种细胞类型存在不确定性,但大多数细胞类型的注释召回率超过 78%(Fig. 2a and Additional file 1: Fig. S2c)。此外,学习模型在预测细胞类型方面表现出出色的准确性,根据受试者工作特征(ROC)曲线计算出的曲线下面积(AUC)高达 0.936 至 0.996(Fig. 2b)。此外,考虑到不同 ST 部分之间潜在的批次效应,作者基于基本模型("Methods")进行了特定部分的训练。与基础模型相比,特定部分模型的结果表明,准确率显着提高,AUC 值更高,这表明特定部分训练有利于整个框架预测性能的提高(Fig. 2c)。

:::block-1
Fig.2 STASCAN 在 10 × Visium 涡虫数据集中的评估
:::

作者使用涡虫数据集进一步比较了 STASCAN 与其他方法(例如 Cell2location、Seurat 和 RCTD)预测原始 spots 上优势细胞类型的性能。作者最初根据相应 spot 图像的形态特征手动注释每个原始 spot 的细胞类型,这被认为是 ground truth。作者计算了不同方法预测的细胞分布与 ground truth 之间的 Kullback-Leibler 散度来评估性能。STASCAN 与手动注释高度一致,并且显着优于其他方法(Fig. 2d, e and "Methods")。作者还观察到,替代 STASCAN 的方法会导致细胞注释出现不同的偏差。例如,Cell2location 可以表征大多数细胞分布,但对表皮细胞的敏感性较低;Seurat 对表皮细胞表现出强烈的注释偏差,导致其他细胞类型的错误标记;RCTD 显示了一些正注释,但丢失了大多数神经元和分泌细胞的注释信息。

作者还将 STASCAN 与其他利用形态学和转录特征进行 ST 数据分析的方法进行了比较。Tangram 有效地说明了大多数细胞的分布,但表现出对神经元细胞的轻微偏差以及检测表皮细胞的灵敏度降低(Fig. 2d and e)。另一方面,MUSE 通过识别 spot clusters 来表征组织区域,但这些 clusters 显得相对分散,无法代表涡虫数据集中的相应结构(Fig. 2d)。相比之下,作者的 STASCAN 在预测方面表现出更精确的性能,能够根据七种主要细胞类型的已知生物学功能准确定位其空间分布(Fig. 2d, and Additional file 1: Fig. S2d,e)。例如,与通过苏木精和伊红 (H&E) 染色可见的清晰组织结构相对应,表皮细胞绘制了涡虫身体的轮廓,肠道细胞标记肠道的位置,肌肉细胞和神经元细胞定义咽部的解剖结构(Fig. 2d and Additional file 1: Fig. S2d)。

与现有方法相比,STASCAN 的另一个显着进步是 STASCAN 仅基于相应的 spot 图像即可实现准确的细胞类型预测。作者比较了在提供形态学图像而基因表达信息被屏蔽时 STASCAN、Tangram 和 MUSE 在预测细胞类型方面的性能(Fig. 2f)。STASCAN 实现了精确的细胞注释预测,这与图像和基因表达数据可用时所做的预测一致。然而,Tangram 无法在没有基因表达数据的情况下预测细胞类型。尽管 MUSE 仅基于图像实现了细胞 clusters 的表征,但它也受到基因表达数据缺乏的干扰,导致错误的预测。例如,MUSE 在肠道区域识别出了两个不同的细胞 clusters,它们与手动注释不一致,并且也未能识别咽部区域神经元细胞的模式(Fig. 2f)。这一比较凸显了 STASCAN 的优越性,并为其在后续步骤中设计的三个应用模块中的使用提供了基础。

3. STASCAN 实现超分辨率细胞模式并改善涡虫的 3D 重建

接下来,作者使用涡虫数据集评估了 STASCAN 在不同应用模块中的功能。当使用 Seurat 和 Cell2location 预测预标记的 spot 细胞类型时,大约一半的原始 spots 无法分配可靠的细胞标签(Additional file 1: Fig. S2a and "Methods")。这个问题可能是由于每个 spot 的基因表达的复杂特征产生的噪声造成的,这表明反卷积在确定细胞类型方面的缺点(Fig. 3a)。选择另一半具有可信标签的原始 spots 作为先验点来训练模型,STASCAN 实现了基于图像的细胞类型注释的可靠能力并描绘了超分辨细胞分布图(Fig. 3a)。首先,STASCAN 未见的 spots 进行了细胞注释,并通过结合未见的 spots 和原始 spots 展示了细胞分布的增强分辨率。增强的细胞分布图与 H&E 染色图像高度一致,突出显示了原始分辨率下未显示的相关结构,例如腹神经索、生殖室、咽部和轮廓(Fig. 3a and Additional file 1: Fig. S2d)。此外,它与先前文献报道的相应细胞标志物的分布高度一致(Fig. 3b and Additional file 1: Fig. S3a)。

:::block-1
Fig.3 STASCAN 在 10 × Visium 涡虫数据集中提供全面的多维细胞注释
:::

此外,STASCAN 在亚分辨率下精确定位了细胞混合物的组成及其不同位置,有效地区分了每个细分 spot 的细胞类型,并显示了更详细的细粒细胞分布(Fig. 3c)。例如,STASCAN 根据形态差异将轮廓周围的分泌细胞和新生细胞敏感地分配到细分位置。STASCAN 还以亚分辨率识别出位于咽部和肠道交界处的肌肉细胞,并且与生物学先验信息一致(Fig. 3c),而这些细胞在原始分辨率下并未从一组肠道细胞中发现。此外,作者利用 STASCAN 来预测增强的肠道细胞亚分辨分布,获得肠道细胞的细粒度分布并再现涡虫肠道的经典分支结构(Fig. 3d)。此外,作者进一步比较了原始 spots 上的细胞反卷积方法与细分点上的 STASCAN 生成的细胞分布,发现 STASCAN 精确地将细粒度细分点分配到具有相应细胞类型的物理空间位置,而原始 spots 上的反卷积方法生成的细胞分布 spots 仅解析了不同细胞类型的组成,而没有确定混合细胞的确切位置(Additional file 1: Fig. S3b, c)。总的来说,这些结果表明 STASCAN 显着增强了亚分辨率下的细胞粒度,有助于用细粒度细胞描述仪器子结构。

最后但同样重要的是,STASCAN 仅通过 H&E 图像使用相邻 ST 切片的学习特征来实现对不可见部分中细胞分布的预测(Fig. 3e and Additional file 1: Fig. S4a-e)。与两个连续切片之间的细胞分布应该相似的生物学解释一致,结构相似性指数测量(SSIM)(范围从 0.67 到 0.89)与相邻图像和 ST 切片之间的间距线性相关,展示了未见部分的细胞注释的预测准确性(Fig. 3f, Additional file 1: Fig. S4a and "Methods")。此外,作者选择了两个相邻的 ST 切片作为测试数据(section-21)和 ground truth(section-23)。作者分别用 section-21 和 section-23 训练了两个 STASCAN 模型,并使用这些模型仅根据 H&E 染色图像来预测 section-23 中的细胞分布。考虑到 section-23 中的手动细胞注释作为 ground truth,作者观察到从 section-21 训练的模型能够预测 section-23 中的细胞分布,并且 ground truth 和由 section-23 训练模型直接生成的预测具有高度相关性。这些结果坚定地证实了 STASCAN 对未见切片的细胞注释的可靠性(Additional file 1: Fig. S4d, e)。最后,作者从 ST 切片和相邻图像中生成原始和未见的 spots,应用 STASCAN 预测这些 spots 的细胞类型,然后用细胞模式重建不同结构的 3D 模型(Fig. 3g and Additional file 1: Fig. S4b, c)。该模型以三维方式显示细胞分布,提高了细胞的空间分辨率,并促进了染色图像的利用,无需 ST 测序。

4. STASCAN 识别人类肠道组织中不同细胞层的明确边界

为了进一步评估 STASCAN 在不同组织结构上的 ST 数据集的性能,作者将 STASCAN 应用于由 10 × Visium 技术生成的人体肠道数据集。这些数据集由在不同采样位置和时间点采样的八张切片组成。作者使用 STASCAN 使用不同大小的先验 spots(范围从 297 到 1551)训练每张切片,并观察到所有大小的稳定性能(Additional file 1: Fig. S5a-c, Additional file 2: Table S1 and "Methods")。

接下来,作者应用 STASCAN 来预测未见的 spots 的细胞类型。与其他方法注释的先验 spots 的细胞分布相比,STASCAN 将细胞群分层到更精细的区域层。例如,与其他仅粗略区分不同细胞分布的方法相比,STASCAN 能够勾画出肠上皮、成纤维细胞和肌层之间的细胞层边界,大大增强了细胞空间模式(Fig. 4a and Additional file 1: Fig. S6)。

:::block-1
Fig.4 STASCAN 描绘了 10 × Visium 人类肠道数据集中不同细胞类型的空间层
:::

然后,作者使用 STASCAN 绘制了人体肠道组织中细小细胞亚型的空间分布图(Fig. 4b)。实际上,作者标记了与 H&E 染色形态结构相关的肠道组织的三个解剖层,包括肌层、成纤维细胞和上皮层,根据它们与肠边缘的距离列出(Fig. 4c)。当评估占据上皮层绝对比例的四种上皮亚型时,作者发现与原始分辨率下替代方法的结果相比,STASCAN 不仅突出了这些亚型的精确分布,而且还准确地定位了不同亚型细胞的位置(Fig. 4b, d, e and Additional file 1: Fig. S7a)。例如,远端上皮亚型细胞倾向于聚集到更靠近上皮层和成纤维细胞层的边界,而近端上皮亚型细胞倾向于以亚分辨率聚集到上皮层的表面。此外,正确预测远端干细胞在亚分辨率下位于上皮层;然而,在原始分辨率下,部分远端干细胞被异常预测位于成纤维细胞层(Fig. 4d, e and Additional file 1: Fig. S7b)。

此外,作者对一对相同且相邻的肠道组织切片进行了 STASCAN,以验证未见切片的细胞注释("Methods"),它们之间的高度相关性进一步证实了预测的准确性和可靠性(Additional file 1: Fig. S8a, b)。

5. STASCAN 揭示了人体肺组织的新结构

尽管 ST 技术的原始空间分辨率有限,但 STASCAN 有助于增强细胞模式并重新发现微米级结构。在这里,作者在 10 × Visium 人肺数据集上应用了 STASCAN,该数据集从近端气道采样。作者之前重新定义了 13 种参考细胞类型,以更好地说明组织结构,并用七种主要细胞类型注释了 822 个 ST spots,以训练 STASCAN(Additional file 1: Fig. S9a-e, Additional file 2: Table S1 and "Methods")。随着分辨率的提高,STASCAN 显示了更精确的人类肺组织的细胞和结构模式。此外,作者观察到 STASCAN 灵敏地识别出了与 H&E 染色图像高度一致的微米级椭圆形结构,证实该结构是邻近气管壁的平滑肌束。然而,这种结构在先验 spots 的原始分辨率下并不明显,凸显了 STASCAN 揭示空间区域精细结构的能力(Fig. 5a and Additional file 1: Fig. S9c)。

:::block-1
Fig.5 STASCAN 展示了 10 × Visium 人肺数据的特殊结构
:::

此外,作者还比较了 STASCAN 与其他方法在用细胞模式揭示组织结构方面的能力。结果表明,STASCAN可以描绘出基底细胞和神经内分泌细胞的气道轮廓,以及杯状细胞、粘液细胞、平滑肌细胞、周细胞等包围的环状软骨结构。此外,平滑肌细胞和神经内分泌细胞所描绘的平滑肌组织载玻片左下角的周细胞仅由 STASCAN 识别(Fig. 5b and Additional file 1: Fig. S9c)。简而言之,与其他方法识别的细胞分布模式相比,STASCAN 在识别和表征空间特定结构方面表现出优越的优势,更好地反映了填充后的解剖结构。

6. STASCAN 描绘心肌梗死后人体心脏组织的病理空间结构变化

为了探讨 STASCAN 是否可以进一步改进 ST 数据分析的功能应用,作者采用这种方法重新分析 10 × Visium 人类心脏数据集,其中包括来自正常心脏和心肌梗死后病理心脏的 17 张切片(Additional file 1: Fig. S10a-b, S11, Additional file 2: Table S1 and "Methods")。作者首先根据采样区域对这些切片进行分组,包括作为对照的正常非移植供体心脏、坏死区域(缺血区和边界区)、未受影响区域(远端区域)以及心肌梗死后的后期区域(纤维化区)。

基于 STASCAN 仅从组织学图像生成细胞图谱的能力,作者认为 STASCAN 不仅是增强空间细胞分布的有价值的算法,而且是一种建设性工具,用于估算 ST 测序期间未能正常捕获转录本的缺失区域的细胞模式。为了评估 STASCAN 在估算缺失细胞分布方面的性能,作者首先选择 slide_ACH003 中一半的 ST spots 作为缺失 spots,然后用另一半 spots 训练 STASCAN。之后,作者执行 STASCAN 来预测 slide_ACH003 的整个细胞分布。考虑到先验 spots 之间的细胞注释作为 ground truth,作者观察到 STASCAN 可以很好地再现缺失 spots 之间的细胞分布,尤其是复制被成纤维细胞和 vSMC 细胞包围的脉管系统结构,这有力地表明了 STASCAN 在估算缺失区域的细胞模式方面的可靠性(Additional file 1: Fig. S12a, b)。

评估后,作者重点关注两张有大量缺失 spots 的载玻片,这些 spots 由于原始文献中测量的基因和独特分子标识符(UMI)不足而被过滤掉(Fig. 6a and Additional file 1: Fig. S13-S17a)。在这两张切片中,STASCAN 不仅更准确地描绘了组织结构的细胞分布模式,而且仅从图像中预测了缺失区域中潜在的细胞分布。特别是对于缺血区采样的 slide_ACH0010 中的严重缺失,STASCAN 更好地估算了符合组织学形态的心肌细胞、成纤维细胞和骨髓细胞的合理扩散(Fig. 6a)。后两种细胞的接近表明它们之间对免疫细胞浸润和疤痕形成区域的强烈依赖性。

:::block-1
Fig.6 STASCAN 揭示了 10 × Visium 人类心脏数据中的细胞类型生态位
:::

然后,作者根据 STASCAN 预测的细胞注释的组成对 spots 进行无监督聚类,探索这两张切片中的空间结构变化,然后将定义为细胞类型生态位的聚类映射到空间区域(Fig. 6b, c, f and Additional file 1: Fig. S13-S17b)。通过重新绘制这些细胞类型生态位的空间分布,与优势细胞注释相比,心脏组织表现出更微妙的空间模式,这与生理和病理过程中观察到的组织学形态和详细结构变化一致。

此外,这些基于不同细胞命题的细胞类型生态位揭示了更复杂的细胞相互作用微环境,具有潜在的生物学见解(Fig. 6d, e and Additional file 1: Fig. S13-S17c)。例如,作者观察到肌源性细胞型生态位(0、1和2)主要表现心肌细胞的特征,而纤维化细胞型生态位(3、4、5、6和7)主要表现成纤维细胞的特征。Slide_ACH006 从纤维化区域取样。在空间分布方面,肌源性细胞类型生态位可以共同表征心肌结构,而纤维化细胞类型生态位通过成纤维细胞比例区分,表明病变过程中不同的纤维化过程。特别是,对生态位 3 和 4 中的 vSMC 和内皮细胞的特征进行了测量,以描绘心脏脉管系统的空间结构。此外,在 slide_ACH0010 中,作者观察到除了肌源性细胞型生态位(0 和 1)和纤维化细胞型生态位外,主要表现出骨髓细胞和肥大细胞特征的炎症细胞型生态位(4、5、6 和 7)生态位(2 和 3)。这三种类型的生态位占据不同的空间区域,但在交叉点上有一个生态位 7,符合生态位 7 中心肌细胞、成纤维细胞、骨髓细胞和肥大细胞的命题。特别是生态位 2、3、4 和 5 显示了骨髓细胞和成纤维细胞之间的共富集,这与巨噬细胞在成纤维细胞活化中的作用和成纤维细胞在巨噬细胞吸引中的作用一致。总体而言,STASCAN 扩展了生态位分布的应用,并为理解细胞微环境相互作用提供了更好的见解。

7. STASCAN 破译小鼠大脑整个发育阶段的复杂组织结构

作者进一步测试 STASCAN 是否也适用于各种技术衍生的 ST 数据。作者首先在 MISAR-seq 的胚胎小鼠大脑数据集上使用 STASCAN,MISAR-seq 是一种基于微流控索引的空间技术,由 DBiT-seq 推动,具有高质量图像和测序数据(Additional file 1: Fig. S18a-c, Additional file 2: Table S1 and "Methods")。值得注意的是,尽管该数据集中采用的 H&E 图像是从邻近的组织切片获得的,导致实际基因表达模式与形态学图像之间存在部分不协调,但 STASCAN 仍然取得了优异的结果。与 RCTD 注释的细胞分布相比,STASCAN 显着提高了细胞分辨率,突出显示了组织结构的特征(Fig. 7a and Additional file 1: Fig. S18a-c)。例如,前脑 GABA 能神经元的增强分布模式与大脑皮层下相关,一组前脑谷氨酸能和皮质或海马谷氨酸能神经元以增强的分辨率聚焦前脑背侧大脑皮层(Fig. 7a)。

:::block-1
Fig.7 STASCAN 揭示了微流控技术生成的小鼠大脑数据集中的主要解剖组织区域
:::

此外,作者分别为小鼠脑组织的不同发育阶段生成了细胞类型生态位,并将它们映射到空间区域(Fig. 7b and "Methods")。使用 H&E 图像中主要组织组织的手动解剖注释作为 ground truth(Fig. 7b),作者将细胞类型生态位的 cluster 分布与先验 spots 上细胞注释的原始分辨率分布进行了比较。STASCAN 生成的细胞类型生态位的 cluster 分布比原始分辨率的细胞类型生态位的 cluster 分布更能再现发育中的小鼠大脑中的组织组织。特别是对于 E18.5 胚胎小鼠脑组织,与原始分辨率下的细胞注释显示几乎整个大脑区域中存在无法识别的组织相比,STASCAN 通过细胞类型生态位聚类清楚地定义了主要组织区域(Fig. 7b)。总的来说,这些结果说明了 STASCAN 在使用来自各种技术的 ST 数据突出组织结构和重新绘制更精细组织方面的优势。

讨论

尽管当前的空间转录组学在破译组织中细胞的分布和相互作用方面取得了显着进展,但空间分辨率的限制阻碍了其更广泛的应用。计算算法的发展对于空间转录组数据的分析至关重要。在这里,作者开发了 STASCAN,这是一种集成组织学图像和空间基因表达的工具,以增强空间分辨率描绘综合细胞图谱。

与传统的基于图像的 CNN 模型相比,STASCAN 集成了基因表达和图像信息,其中基因表达有助于自动标记用于训练的 spots,无需手动注释。同时,图像拓展了新的视角,补充了测序无法提供的信息。此外,STASCAN 可以通过迁移学习和伪标签准确提取特征并提高模型的准确性。因此,STASCAN 有效地解析图像,并将图像信息作为细胞类型判断的主要参考。这种方法有助于预测细胞分布并增加代表细胞的点云中的点数量,最终有助于构建精细分辨率的 3D 空间细胞分布图。

通过充分利用测序和图像数据,STASCAN 不仅可以准确注释原始 ST spots 上的细胞类型,还可以预测组织中未知区域的细胞分布。此外,STASCAN 充分利用连续切片的图像信息构建 3D 组织模型,无需昂贵的 ST 实验成本,为拓展 3D 细胞图谱的未来前沿奠定了基础。作者在不同的物种和组织中进行了 STASCAN,并观察到在描述空间细胞模式和组织结构方面比当前方法有了实质性的进步。在涡虫中,STASCAN 成功预测了未知区域中未见 spots 和切片的细胞分布,从而构建了更详细的 3D 细胞分布模型。此外,作者发现 STASCAN 通过增强的细胞注释发现精确的组织结构。在人类肺组织中,STASCAN 增强了空间分辨率,并识别出微米级结构,该结构由一组位于气管壁附近的平滑肌细胞组成,参与肺内气道口径的调节,而原始分辨率太粗略,无法解析相同的特定结构。

基于 NGS 的空间转录组学的低分辨率还归因于捕获 spots 的间距,其不够小,不足以实现单细胞分辨率。目前大多数方法从捕获 spots 上的细胞混合物中估计每种细胞类型的比例或丰度,但无法将每个细胞分配到每个 spots 内的确切位置。尽管 Tangram 提供了一个计算机视觉模块,可以根据组织学图像分割细胞核并预测 spots 中每个细胞的细胞类型,但它对 spots 内的分段掩蔽执行随机细胞分配,并且仍然无法明确解析细胞位置。相比之下,STASCAN 引入了亚分辨率预测模块,允许根据与确切位置相对应的组织形态特征将细胞类型分配到细分 spots。在人体肠道组织中,STASCAN 精确定位了不同细胞层之间的细粒度细胞亚型。

此外,作者知道一些正在开发的方法旨在通过整合 ST 数据和组织学图像来增强基因表达分辨率。这些方法通常将每个基因的空间表达解释为图像,并通过将每个 spot 的基因表达定期分布到相应的像素中来提高基因表达分辨率。从逻辑上讲,这些方法可以与反卷积方法组装到管道中以完成细胞类型注释的任务。然而,它们很容易受到原始数据的高维性和稀疏性的影响,并且通常缺乏高精度,特别是在复杂组织类型中进行预测时。此外,反卷积方法很容易受到 ST 数据中标记基因潜在“丢失”和单细胞参考数据不准确的影响。尽管一些基因表达增强方法已经通过基于标记基因的策略实现了细胞注释,但它们仍然可能遭受“丢失”和标记基因偏差(例如反卷积方法)带来的不准确性(Additional file 1: Fig. S19)。相比之下,STASCAN 利用细胞分布可以反映在组织学图像上,熟练的病理学家可以直接从 H&E 染色图像中识别不同的细胞。鉴于生物学推断更加可靠和直接,STASCAN 可能提供更好的策略来增强 ST 数据的细胞分辨率,并具有更高的可解释性和准确性。

STASCAN 的优点使其具有更广泛的应用范围。例如,STASCAN 可以有效预测由于捕获的 UMI 和基因数量较少而缺少测序数据的某些区域的细胞分布。在人类心脏组织中,STASCAN 可以填补缺失的数据,并帮助显示疤痕组织附近成纤维细胞和骨髓细胞的广泛空间邻近分布。这可以更好地理解心肌梗死中成纤维细胞和免疫细胞之间的关系,例如刺激成纤维细胞转化的免疫因素。此外,STASCAN 生成的细胞命题注释支持对不同的细胞类型生态位进行聚类,从而在细胞分辨率下提供对微环境的新颖见解。在人类心脏组织中,STASCAN 生成了不同的生态位,包括炎症、肌源性和纤维化细胞类型生态位,最好地代表了心肌梗死期间微环境中细胞的动态多样性。在胚胎小鼠脑组织中,STASCAN 揭示了整个发育阶段的主要解剖组织组织,并且在大脑发育过程中大脑结构的复杂性逐渐增加。

从逻辑上讲,STASCAN 可用于所有利用微阵列、微流体或类似设计来注释未见的 spots 的细胞类型的 ST 技术。它还可以用于其他基于 NGS 的 ST 技术,以注释细分 spots 和未见切片的细胞类型,前提是该技术同时提供 H&E 染色图像和转录数据。由于收集已发表的 ST 数据集的高质量 H&E 染色图像的限制,作者仅在 10 × Visium 和 MISAR-seq 技术(分别代表基于微阵列和基于微流控的技术)生成的 ST 数据集中应用 STASCAN。尽管如此,STASCAN 的技术框架设计良好,并为其他基于 NGS 的 ST 技术的进一步实现提供了方便的接口。

尽管 STASCAN 作为具有增强 ST 数据分辨率的细胞注释工具显示出显着的优越性和优势,但肯定需要进一步改进以提高其性能。问题之一是由于样本较少,对稀有细胞类型的预测可能不准确。尽管作者利用了一些方法来减轻样本不平衡的影响,例如对较大尺寸的类别进行欠采样,但仍然需要采用更先进的策略来解决这个问题。此外,坏死区域严重的组织样本,由于细胞形态的不规则变化,也可能导致 STASCAN 的训练精度较低,有待进一步改进。

总结

综上所述,STASCAN 是一种通用且精确的细胞类型预测方法,它集成图像和表达信息来确定组织中复杂的空间分布。STASCAN 的多样化应用已经证明了其在增强空间分辨率和发现新颖结构方面的卓越性能,为解决不同类型组织在发育、再生和疾病不同阶段的细胞类型分布提供了潜力。STASCAN 确定的不同细胞类型的位置关系为细胞串扰提供了新的见解,这对于协调有机体发育和稳态至关重要。此外,STASCAN 充分利用各种生物条件下更容易获取的图像数据集,可用于推断病理细胞的亚型,并通过广泛的数据训练进一步将空间细胞分布与疾病诊断经济有效地联系起来,从而消除了测序的需要。


<center>--------------- 结束 ---------------</center>


<p style="color: gray; font-size: 10px;">注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。</p>

本文由mdnice多平台发布


TigerZ知识宝库
4 声望8 粉丝