::: block-1

文献介绍

文献题目: 空间转录组数据的对齐和整合 \
研究团队: Benjamin J. Raphael(美国普林斯顿大学)\
发表时间: 2022-05-16 \
发表期刊: Nature Methods \
影响因子: 47.9(2022年)\
DOI: 10.1038/s41592-022-01459-6
:::

摘要

空间转录组学 (ST) 可测量组织切片中数千个 spots 的 mRNA 表达,同时记录每个 spot 的二维 (2D) 坐标。作者介绍 ST 实验的概率对齐 (PASTE),这是一种对齐和集成来自多个相邻组织切片的 ST 数据的方法。PASTE 使用最佳传输公式计算切片的成对对齐,该公式对转录相似性和 spots 之间的物理距离进行建模。PASTE 进一步组合成对对齐来构建组织的堆叠 3D 对齐。或者,PASTE 可以将多个 ST 切片集成到单个共识切片中。作者表明,PASTE 在模拟和真实 ST 数据中准确地对齐相邻切片上的 spots,展示了使用转录相似性和空间信息的优势。作者进一步表明,与分析单个 ST 切片或忽略空间信息的现有方法相比,PASTE 集成切片提高了细胞类型和差异表达基因的识别。

前言

ST 测量组织中的 mRNA 表达,同时保留空间信息。ST 涉及将薄薄的组织切片放置在由条形码 spots
网格覆盖的阵列上,并对 spots 内细胞的 mRNA 进行测序(Fig. 1a)。早期的 ST 技术可测量多达 1,000 个 spots 的 mRNA,每个 spot 包含 10-200 个细胞,而最新技术(例如 10x Genomics 的 Visium 技术)可测量多达 5,000 个 spots,每个 spot 包含大约 1-30 个细胞。ST 已用于研究癌症组织(例如乳腺癌、前列腺癌、黑色素瘤、胰腺癌和恶性上皮肿瘤)、患病组织(例如阿尔茨海默病和牙龈炎)和健康组织(例如小鼠嗅球、人类心脏、脊髓和大脑),以及其他应用程序。多种计算方法被引入来分析 ST 数据,包括识别基因表达的空间模式、空间分布的差异表达基因以及空间细胞间通讯模式。除了 ST 技术之外,其他测量基因表达以及组织中空间位置的技术包括单分子荧光原位杂交 (smFISH)、seqFISH+、STARmap 和 Slide-Seq2。

:::block-1
Fig.1 使用 PASTE 配准和集成 ST 切片

a. ST 实验生成的每个切片都放置在条形码 spots 的 2D 网格上,并且测量每个 spot 的 mRNA 表达以及每个 spot 的空间坐标。只有一小部分 spots(绿色)含有组织细胞,其他 spots(蓝色)未被组织覆盖。这产生了组织 spots 及其空间坐标的转录本计数矩阵。\
b. PASTE 将由 spot 表达矩阵和 spot 空间位置组成的多个 ST 切片作为输入。在成对切片对齐模式中,PASTE 找到一个切片中的 spots 与另一切片中的 spots 之间的最佳映射,同时保留基因表达和映射点的空间距离。然后,这些映射可用于通过将切片堆叠在彼此之上来重建组织的堆叠 3D 对齐。在中心切片集成模式下,PASTE 推断出一个“中心”切片,该切片由低秩表达矩阵和从中心切片的 spots 到每个输入切片的 spots 的映射集合组成。推断的中心切片通常比各个 ST 切片具有更低的稀疏性和更低的方差。
:::

尽管许多 ST 研究从多个相邻组织切片生成数据,但几乎所有当前的 ST 分析技术要么分析单个切片要么分析跨切片的基因表达数据,而不考虑空间坐标。然而,由于每个 spots 的独特分子标识符 (UMIs) 的数量相对较小 (约 5,000),因此对单个切片的分析检测跨空间变化的低表达转录本的能力较低。最近开发的一个名为 STUtility 的软件包通过识别与组织边缘匹配的图像的变换来对齐有时伴随 ST 实验的组织学图像。然而,STUtility 不考虑基因表达数据或 spots 位置,而是依赖于组织学图像的可用性,并且根据组织的拓扑结构,STUtility 可能无法自动对齐图像。更重要的是,STUtility 不会输出可用于下游分析的 spots 之间的映射。另一种方法名为 Splotch,可以对齐来自多个切片的 ST 数据,但专为较旧的 ST 平台而设计,并且需要根据组织背景对 spots 进行事先手动注释,而这些信息通常不可用。

对于单细胞测定,整合多个实验数据的优势已被反复证明,并且已引入多种方法来整合单细胞 RNA 测序 (scRNA-seq)、转座酶染色质可及测定和高通量测序的数据(ATAC-seq)等。尽管这些方法可以通过忽略 spots 的空间坐标来应用于 ST 数据,但空间信息为 ST 数据提供了严格的结构,不能简单地视为附加特征。此外,由于组织切片的解剖及其在阵列上的放置的差异,空间坐标本身不能轻松地跨切片进行比较。因此,通过整合基因表达和空间数据来整合 ST 数据并非易事。

作者介绍了 PASTE,一种使用基因表达和空间坐标信息来对齐和整合来自多个组织切片的空间解析转录组数据的方法。PASTE 使用融合 Gromov-Wasserstein 最佳传输基于转录和空间相似性计算相邻切片的概率成对对齐。因此,PASTE 无需物理对齐阵列上的组织切片,并且不依赖额外的组织学图像来执行对齐。PASTE 还将来自多个相邻切片的这些成对对齐组合成组织的堆叠 3D 对齐。在第二种模式中,PASTE 将多个 ST 切片集成到单个中心或一致切片中,使用 Gromov-Wasserstein 最佳传输重心公式和非负矩阵分解 (NMF) 保留表达和空间信息。相对于各个切片的独立分析,该中心切片有可能提高下游分析的能力。

作者在模拟 ST 数据集和最近发布的鳞状细胞癌 (SCC) 和人类背外侧前额叶皮质 (DLPFC) 数据集上展示了 PASTE 的优势。作者在模拟数据上展示了 PASTE 可以准确地对齐切片上的 spots 并恢复组织的基因表达模式。在 SCC 数据集和 DLPFC 数据集上,与仅基于表达相似性或组织学图像相似性来对齐切片的方法相比,PASTE 生成的成对对齐和堆叠 3D 对齐保留了注释区域之间的空间关系。作者证明了 PASTE 的集成切片能够在 SCC 数据上推导出更空间相干的基因表达簇,并在 DLPFC 数据上推导出更准确的聚类结果。最后,作者在 DLPFC 数据上表明,PASTE 整合切片以无监督的方式恢复已知的标记基因,并且优于不利用空间信息的 scRNA-seq 整合方法。

研究结果

1. PASTE 算法

PASTE 算法使用两种模式分析来自同一组织的 ST 数据的多个切片:成对切片对齐中心切片集成Fig. 1b)。在成对切片对齐模式中,PASTE 找到一对切片中的 spots 之间的映射,该映射保留了对齐 spots 之间表达的相似性和物理距离。在中心切片集成模式下,PASTE 将多个 ST 切片集成到单个中心切片,该中心切片在基因表达和 spots 之间的空间关系方面与各个切片相似。

成对切片对齐中,PASTE 找到一个切片中的 spots 与另一切片中的 spots 之间的最佳概率(或分数)映射 $\Pi$,从而最大限度地减少来自不同切片的比对 spots 之间的转录差异以及来自相同切片的比对 spots 对之间的空间距离差异(Supplementary Fig. S1a; Methods)。重要的是,最佳映射 $\Pi$ 通常不是两个切片中的 spots 之间的一对一匹配。这种 spots 的匹配既不总是可行也不理想,因为 spots 的数量及其在组织中的位置可能随切片而变化,并且组织相对于阵列上 spots 的固定位置的放置通常随切片而变化。此外,分数映射将一个切片中的 spots 表示为另一切片中 spots 的组合,隐含地考虑了一个 spots 是不同细胞类型的混合的情况。

简而言之,PASTE 计算两个切片中的 spots 之间概率映射 $\Pi=[\pi_{𝑖𝑗}]$ 具有以下属性:

  1. 如果一个切片中的 spot $i$ 以高权重 $\pi_{ij}$ 映射到另一切片中的 spot $j$,则 spot $i$ 的表达谱 $x_{⋅i}$ 与 spot $j$ 的表达谱 $x'_{.j}$ 相似。
  2. 如果一个切片中的一对 $(i,k)$ spots 映射到另一切片中具有高权重 $\Pi_{ij}$ 和 $\Pi_{kl}$ 的一对 $(j,l)$ spots,则第一个切片中 spots $i$ 和 $k$ 之间的空间距离 $d_{ik}$ 与第二个切片中的 spots $j$ 和 $l$ 之间空间距离 $d'_{jl}$ 很近。

PASTE 使用融合的 Gromov-Wasserstein 最佳传输计算成对切片对齐,其中超参数 α 控制对齐点之间转录差异和空间距离的相对贡献(equation (1))。值 $\alpha = 0$ 仅使用转录信息并忽略空间位置来计算对齐,而 $\alpha = 1$ 对应于忽略转录信息并仅使用空间坐标。PASTE 还将多个相邻组织切片的成对对齐组合成组织的堆叠 3D 对齐(Fig. 1b)。作者通过使用广义 Procrustes 分析(Methods; Supplementary Section S1.1)转换空间坐标来获得这种重建。

中心切片集成中,PASTE 将多个 ST 切片集成到单个中心切片中,该中心切片具有低阶转录本计数矩阵,并且在基因表达和 spots 之间的空间关系方面与各个切片具有高度相似性。中心切片集成的动机是克服由于测序覆盖范围、组织解剖或阵列上的组织放置不同而导致的各个切片的变异性。值得注意的是,在许多当前的 ST 数据集中,每个组织切片的厚度 (10-20 μm) 小于 spots 直径(ST 中为 100 μm,Visium 中为 55 μm)和 spots 之间的间距 (100-200 μm)。对于此类数据集,多切片集成的优点(例如,通过跨切片组合信号来提高下游分析的能力)可能会超过无法获得堆叠 3D 对齐的缺点。

PASTE 通过将融合的 Gromov-Wasserstein barycenter 与 NMF 相结合来计算中心切片集成。与融合 Gromov-Wasserstein barycenter 问题类似,我们寻求找到一个中心 ST 切片,以最小化到给定输入 ST 切片集的距离加权和,其中切片之间的距离是通过成对切片对齐的最小值计算的所有映射的目标(Supplementary Fig. S1b)。作者提出了一个额外的要求,即共识基因表达矩阵是非负的和低秩的。作者使用 NMF 是因为该技术已被证明是 scRNA-seq 分析中有用的降维技术,特别是使用解释缺失值('dropouts')的泊松似然模型。作者使用块坐标下降算法计算中心切片集成(Methods; Supplementary Section S1.2)。

2. 模拟 ST 数据的评估

作者首先在模拟 ST 数据上评估 PASTE,该数据是通过对乳腺肿瘤切片的 ST 数据进行重采样而生成的(Extended Data Fig. 1)。具体来说,作者通过旋转 spots 的位置并在向每个 spots 中的每个基因添加 $\delta$ 读数的伪计数后重新采样读数计数来生成模拟 ST 切片(Methods)。作者将映射的准确性测量为真实对齐中所有 spots 对 $(i,j)$ 的概率对齐权重 $\Pi_{ij}$ 之和。

作者观察到,与仅使用表达信息($\alpha = 0$)或仅使用空间信息($\alpha = 1$)计算的对齐相比,当同时使用基因表达和空间信息($\alpha = 0.1$)时,PASTE 在成对切片对齐中实现了最高的准确度(Fig. 2a and Extended Data Fig. 2)。PASTE ($\alpha- = 0.1$) 对于对应的伪计数参数 $\delta≈0.1–0.2$ 的值实现了尽可能高的精度,对应于实际数据中观察到的读取计数的变化(完美对齐对应于对齐的 spots 的 ≈86%,因为每个切片中填充 spots 的数量不相同)(Supplementary Fig. S2)。即使对于较大的 $\delta > 4$ 值,PASTE 也可以正确对齐  >73% 的 spots。此外,PASTE 的性能在 $0 < \alpha< 1$ 的中间值上具有鲁棒性(Extended Data Fig. 2),并且 PASTE 生成的映射是稀疏的,第一个切片中的一个 spot 映射 ($\Pi_{ij} > 0$) 到平均值另一个切片中有 1.86 个 spots(Supplementary Fig. S3)。相反,仅使用空间数据 ($\alpha = 1$),PASTE 无法恢复任何匹配的 spots 对,这表明用于生成模拟切片的旋转提供了具有挑战性的空间扰动。另一方面,仅使用基因表达($\alpha= 0$)来匹配 spots,比对的准确性随着伪计数 $\delta$ 的增加而下降得更快。作者还将 PASTE 与通过将最佳传输应用于从 scRNA-seq 整合方法 Scanorama(Supplementary Section S2.1.1)获得的整合表达矩阵而获得的映射进行了比较。作者发现 PASTE 始终具有更高的准确性(Extended Data Fig. 2),这证明了 PASTE 在计算成对对齐时同时使用表达和空间信息的优势。

:::block-1
Fig.2 来自 Ståhl 等人的乳腺癌 ST 切片的模拟 ST 切片的 PASTE 结果

a. 使用 α = 0(仅基因表达数据)、α = 1(仅空间信息)和 α = 0.1(两者)作为添加的伪计数 δ 的函数,通过 PASTE 在成对切片对齐模式下正确对齐的 spots 的平均百分比。虚线代表最大可能的精度。\
b. 在原始中心切片和模拟切片之间的中心切片对齐模式下通过 PASTE 正确对齐的 spots 的平均百分比。\
c. 真实中心切片的基因表达矩阵与 PASTE 和 Scanorama 推断的基因表达矩阵之间的 Kullback-Leibler (KL) 差异。
:::

对于中心切片对齐,作者发现 PASTE 在映射 spots 方面具有较高的准确性,并且对于真实表达矩阵具有较低的重建误差。即使伪计数 $\delta$ 值较大,PASTE (α = 0.1) 也能正确对齐 58–72% 的 spots(相比最大可能准确度 86%)(Fig. 2b and Supplementary Fig. 5)。相比之下,仅使用基因表达数据 (α = 0) 或仅使用空间数据 (α = 1) 执行中心切片对齐在所有模拟中表现不佳,准确度降至 3% 以下。

最后,我们将 PASTE 计算的整合表达矩阵与 Scanorama(一种 scRNA-seq 整合方法)计算的整合表达矩阵进行了比较(Supplementary Section S2.1.1)。作者发现 PASTE 推断出的中心切片表达矩阵比 Scanorama 的整合基因表达矩阵更接近真实情况(Fig. 2c and Supplementary Fig. 6)。作者注意到 Scanorama 结果是 Scanorama 性能的上限,因为作者使用切片之间的真实对应关系来比较 spots 的表达。同时,Scanorama 并不是为利用空间数据而设计的,因此 PASTE 的更好性能并不表明 Scanorama 在解决其设计目的的 scRNA-seq 整合问题方面存在缺陷。

3. ST of SCC

作者应用 PASTE 分析四名皮肤 SCC 患者的 ST 数据集。对于每个患者,都有三片 ST 数据,每个切片包含大约 600-700 个组织 spots。应用独立成分分析将每个患者的所有三个切片上的 spots 联合聚类,这种方法仅利用基因表达信息和忽略了 spots 的空间位置。

作者首先使用 PASTE 来计算相邻组织切片的成对切片对齐。尽管 PASTE 允许进行分数映射,但作者发现一个切片中的每个 spot 映射到相邻切片中平均 1.7-2.1 个 spots(Supplementary Fig. 3)。作者将 PASTE 对齐的准确性计算为 Ji 等人中具有相同 cluster 标签的对齐 spots 对的分数 $Σ_{i,j;ℓ(i)=ℓ(j)}\Pi_{ij}$,依赖于假设对齐的相邻切片中的 spots 更有可能包含相同的细胞类型,因此具有相似的表达(Methods)。有趣的是,四名患者在 PASTE 对齐 spots 之间的 cluster 标签一致性方面表现出很大的变异性。对于患者 2,一个切片中大约 70% 的 spots 与相邻切片中具有相同 cluster 标签的 spots 对齐,但对于患者 5、9 和 10,只有 20-50% 的对齐 spots 具有相同的 cluster 标签(Fig. 3a)。这种差异可能是由于肿瘤空间同质性的内在差异造成的,事实上,患者 2 确实在单个切片内(Fig. 3b)或通过 PASTE 导出的堆叠 3D 对齐的相邻切片中表现出 cluster 标签的高空间同质性(Fig. 3c)。相比之下,其他三名患者在组织切片内或跨堆叠 3D 排列表现出较低的空间均匀性(Fig. 3d,e and Supplementary Fig. 7)。

:::block-1
Fig.3 PASTE SCC 的成对切片对齐

a. 来自相邻切片的 PASTE 成对对齐的对齐 spots 的百分比,这些切片具有相同的 Ji 等人发布的 cluster 标签。\
b. 已发布的患者 2 切片 A 中 spots 的聚类标签具有中等空间相干性。\
c. 使用相邻切片的成对对齐通过 PASTE 生成患者 2 的 SCC 肿瘤的堆叠 3D 对齐。切片根据已发布的 cluster 标签进行着色。\
d. 已发布的患者 9 切片 A 中 spots 的聚类标签具有较低的空间相干性。\
e. 患者 9 的鳞状细胞癌肿瘤的堆叠 3D 排列。\
f. 对于具有较高空间相干性得分的切片,具有相同 cluster 标签的对齐 spots 的百分比较大。
:::

为了量化不同患者中观察到的 clusters 空间相干性差异,作者基于 O’Neill 空间熵得出了空间相干性评分(Methods)。该分数衡量与随机分配 cluster 标签相比具有相同 cluster 标签的相邻 spots 的分数;较高的空间相干性分数表明相邻 spots 往往具有相同的 cluster 标签。作者发现患者 2 的空间相干性得分明显高于其他三名患者,这量化了患者 2 的聚类标签在空间上最相干的观察结果(Fig. 3f)。

虽然观察到的 5、9 和 10 号患者的异质性和较低的空间相干性分数表明这些肿瘤的空间相干性较差,但该数据中存在一个重要的混杂变量。也就是说,来自患者 2 的切片的测序序列覆盖度比患者 5、9 和 10 高出两倍以上。因此,观察到的空间异质性差异可能是序列覆盖度差异的人为因素。为了进一步研究序列覆盖度对基因表达 clusters 的空间一致性和对齐准确性的影响,作者从最高覆盖度患者 2 的 ST 切片中对 UMI 进行下采样。作者发现较低的 UMI 与较低的空间一致性得分和较低的空间相关性相关。映射到同一 cluster 的 spots 的比例(Supplementary Fig. S9 and Supplementary Section S2.2.1)。这些结果支持这样的假设:在患者 5、9 和 10 中观察到的较低空间一致性分数可能是由于较低的序列覆盖率。

为了进一步评估单个 ST 切片覆盖率低的问题,作者使用 PASTE 的中心切片集成模式来推断单个中心切片,该中心切片集成了每个 SCC 患者的多个 ST 切片的数据。作者使用 PASTE 给出的低维表示对推断的中心切片表达矩阵中的 spots 进行聚类,使用与每个患者已发表的分析相同的聚类数量(Methods)。作者发现,对于所有患者,使用 PASTE 计算的中心切片获得的聚类比已发布的聚类的空间相干性得分更高(Fig. 4a and Extended Data Fig. 3)。此外,作者发现,ST 数据覆盖率较低的 5、9 和 10 号患者的空间一致性评分改善最大。例如,作者观察到,已发布的患者 5 的切片 A 的聚类标签(空间相干性得分 = 2.55)没有显示出太多的聚类一致性(Fig. 4b),而从 PASTE 获得的聚类标签(空间相干性得分 = 33.45)是视觉上在空间上更加连贯(Fig. 4c)。作者使用来自 Ji 等人的另一位 SCC 患者的 10x Genomics Visium ST 数据,通过 PASTE 推断出中心切片的更高空间相干性的类似结果(Supplementary Section S2.2.2 and Supplementary Fig. 10)。尽管 PASTE 的集成中心切片比仅使用表达数据导出的聚类具有更高的空间相干性分数并不奇怪,但作者强调 PASTE 使用跨切片的空间信息,其空间先验不如以下方法所使用的空间先验强:一片内相邻点的“平滑”表达。

:::block-1
Fig.4 PASTE 中心切片整合 SCC 肿瘤的到中心切片

a. 从 PASTE(绿色)推断的中心切片获得的 clusters 的空间相干性得分以及 Ji 等人在每个患者的各个切片上发布的 clusters(紫色和粉色)。\
b. 发布了患者 5 的切片 A 中 spots 的聚类标签。\
c. 从 PASTE 推断的患者 5 的中心切片中获得的 spots 的聚类标签 C1, …, C7。
:::

作者还将 PASTE 应用于另外两个 ST 数据集,以评估 PASTE 在具有不同空间组织的组织上的性能。作者发现 PASTE 成功地对齐了来自脊髓的 ST 数据,脊髓是一种具有对称空间组织的组织(Supplementary Section S2.3)。作者还发现 PASTE 识别了小的空间结构,包括 Her2 乳腺癌 ST 数据中的四个癌症 spots 的一小部分子集(Supplementary Section S2.4 and Extended Data Fig. 4)。这些结果表明,PASTE 能够处理具有不同空间组织的组织,并且多个 ST 切片的整合可以恢复在单个切片的覆盖测序中不明显的微妙基因表达模式。

4. 人类 DLPFC ST 数据

作者应用 PASTE 分析来自三个个体的人类 DLPFC 组织的 10x Genomics Visium ST 数据。该数据集由每个个体(标记为 I、II 和 III)的四个组织切片(标记为 A、B、C 和 D)组成(Fig. 5a)。在每个个体中,第一对 AB 切片和最后一对 CD 切片直接相邻(相距 10 μm),而中间一对 BC 切片相距 300 μm(Extended Data Fig. 5)。Maynard 等人使用监督方法将这些 spots 注释为白质或六个新皮质层之一,并使用监督方法来识别注释层之间的差异表达基因。特别是,他们使用已知的标记基因对 spots 进行聚类,并使用 'pseudobulk' 方法通过对组织切片中用同一层注释的所有 spots 的基因 UMI 计数求和来识别差异表达的基因。

:::block-1
Fig.5 DLPFC 样品 III 的 PASTE 成对对齐和堆叠 3D 对齐

a. 一份 DLPFC 样本,有四片标记为 A、B、C、D 的切片,spots 根据 Maynard 等人的手动注释进行着色。第一对 (AB) 和最后一对 (CD) 切片相邻 (10 μm),而中间一对 (BC) 相距较远 (300 μm)。每个切片中的 spots 根据 Maynard 等人的注释进行着色,将 spots 分为六个新皮质层和白质 (WM)。\
b. PASTE、Seurat、Tangram、STUtility 的连续 DLPFC 切片(标记为 AB、BC 和 CD)的成对对齐精度。准确性是根据每个 spots 已发布的注释计算得出的。红线标记了给定两个切片中每层中的 spots 数量的最大可能精度。\
c. 使用 PASTE 成对对齐的坐标堆叠 DLPFC 样本 III 的四个 ST 切片。\
d. 使用 PASTE 对齐后,DLPFC 样本 III 的四个组织切片的堆叠 3D 对齐。z 轴未按比例绘制。
:::

作者首先使用 PASTE 计算同一样本中每对连续切片的成对切片对齐。作者将 PASTE 获得的成对对齐与三种现有方法进行了比较:Seurat,一种通过在数据集之间选择 'anchors' 来比对 scRNA-seq 数据的方法;Tangram,一种将 scRNA-seq 数据与 ST 数据对齐的方法;STUtility,一种对齐 ST 组织切片的 H&E 染色图像的方法(Methods)。作者强调,这些方法都没有直接解决 PASTE 解决的成对对齐问题,因为 Tangram 和 Seurat 在执行对齐时都不使用空间信息,而 STUtility 完全依赖于 H&E 染色图像进行对齐,并且不考虑每个 spots 的基因表达。作者通过计算精度 $Σ_{i,j;ℓ(i)=ℓ(j)}\Pi_{ij}$ 作为属于跨切片的同一注释层的 spots 的分数来测量对齐的质量(Methods)。

作者发现,PASTE 在 9 个成对对齐中的 5 个中实现了最高的比对精度,对相距 10 μm 的紧密切片对(AB 和 CD)实现了高精度 (>81%),但对于相距 300 μm 的中间对 BC 的准确度较低(21%、59% 和 82%)(Fig. 5b)。Seurat 在中间两个空间相距较远的 BC 切片对上的精度最高,但在其他 7 对上的精度低于 PASTE。对这两个中间对的结果进行仔细检查表明,与仅表达量的整合方法相比,PASTE 更好地保留了对齐 spots 之间的空间关系(Extended Data Fig. 6);然而,这些相距较远的切片在层结构上仅具有适度的一致性,从两个切片右上角的第 3 层的不同大小可以清楚地看出(Extended Data Fig. 5)。Tangram 在所有切片对上实现了相对较低的准确度 (0.28–0.53),仅在一个中间 BC 切片对上稍微优于 PASTE。STUtility 仅基于 H&E 染色图像的空间特征,在 2 个切片对上比 PASTE 的精度稍好(0.007 差异),但在两个切片对上的精度要差得多(0.66-0.71 差异)。与 PASTE 类似,STUtilty 也倾向于保留其对齐中相邻点之间的关系。然而,由于不使用转录信息,STUtility 很容易出现图像中不明显的细微差异。例如,当对齐样本 I 的切片 C 和 D 时,STUtility 实际上镜像了图像和点坐标,导致精度较低(Supplementary Fig. 14)。这些结果表明,PASTE 使用转录信息和空间信息来对齐 ST 数据通常优于仅使用转录信息或仅使用空间信息。

为了进一步证明 PASTE 的优点,作者使用连续切片之间的成对对齐来重建每个样本的堆叠 3D 对齐(Fig. 5c,d)。作者发现,使用 PASTE 转换空间坐标可以使新皮质层在彼此之上得到更好的定位(Supplementary Figs. 15, 16 and 17)。

作者利用 DLPFC 数据集中的可用注释来评估参数值对 PASTE 对齐精度的影响。作者发现 PASTE 的性能对于 0 < α < 1 的中间值略有不同(Supplementary Section S2.5.1)。此外,作者发现使用所有基因并以 KL 散度作为表达差异运行 PASTE 比使用对数转换标准化表达和高度可变的基因提供更好的结果(Supplementary Section S2.5.2 and Extended Data Fig. 7)。最后,作者评估了 spots 的不同权重,并发现当使用从每个 spot 的估计细胞数得出的权重与所有 spot 的相同权重相比时,对齐仅存在微小差异(Supplementary Section S2.5.3)。

接下来,作者对样本 III(其切片表现出最大的成对相似性)使用 PASTE 进行中心切片整合,以检查多切片整合对于 spots 聚类和跨新皮质层差异表达基因识别的优势。作者将从 PASTE 生成的中心切片获得的基因表达 clusters 与 Maynard 等人的半监督分析 clusters 进行比较。通过独立分析每个切片获得的 clusters 以及通过 scRNA-seq 整合方法 Scanorama 和 Seurat 推断的 clusters。Maynard 等人通过使用已知和推断的标记基因的监督组对各个切片中的 spots 进行聚类,报告了 0.2-0.4 的低调整兰德指数 (ARI)。当根据基因表达对单切片中的 spots 进行聚类时,作者获得了类似的低 ARI(0.21-0.24)(Fig. 6a, Supplementary Fig. 24, Supplementary Table 4; Methods)。这些糟糕的结果可能是由于个别 spots 的 UMI 计数较低所致。使用 Scanorama 和 Seurat 整合基因表达分别实现了类似的低 ARI,分别为 0.16-0.18 和 0.24-0.31(Supplementary Table 4 and Supplementary Fig. 25)。在分析单个标记基因的差异表达时,单个切片中 UMI 计数低的问题尤其明显。例如,标记基因 MFGE8、MOBP 和 PCP4 在各个切片中表现出稀疏的表达模式(Fig. 6b and Supplementary Figs. 26a, 27a and 25),并且新皮质层之间的表达存在微弱差异(Fig. 6c and Supplementary Figs. 26a, 27b and 25)。

:::block-1
Fig.6 DLPFC 样品 III 的 PASTE 中心对齐可改善层和差异表达基因的识别

a. 单切片 B 中基因表达的 spots 聚类与已发布的层标签的一致性较低 (ARI = 0.22),其边界由绿色曲线标记。\
b. B 切片中第 3 层标记基因 MFGE8 的表达。\
c. MFGE8 表达在切片 B 的注释层中的分布。白质和第 6 至 1 层分别有 625、614、621、247、924、224 和 380 个 spots。内部箱线图显示分布的 25%、50% 和 75% 分位数。指示了相邻层之间的分布差异(two-sided Mann–Whitney U test)的 P 值(四舍五入到最接近的 10 次方)。\
d. 使用 PASTE 集成中心切片的低维表示进行的点聚类显示与已发布的层标签具有更好的一致性 (ARI = 0.53)。\
e. PASTE 集成中心切片中第 3 层标记基因 MFGE8 的表达。\
f. 中心切片中 MFGE8 表达的分布,P 值如 c 中所述。
:::

相比之下,PASTE 中心切片中的 spots 聚类与手动注释的层(Fig. 6d; Methods)获得了更好的一致性(ARI = 0.53),并且标记基因表达的模式更清晰,并且跨新皮质层的表达具有微妙的梯度(Fig. 6e,f and Supplementary Figs. 26 and 27)。这一观察结果在低表达基因中更为引人注目,例如 TRABD2A 基因,该基因在不到 5% 的 spots 中表达,并被 Maynard 等人使用 smFISH 验证为第 5 层标记基因(Extended Data Fig. 8)。因此,与单个切片的分析相比,整合的中心切片在聚类 spots 和识别标记基因表达的空间模式方面显示出巨大的改进。

最后,作者发现层特异性标记基因在 PASTE 集成中心切片中显示出比单个 ST 切片或使用 scRNA-seq 集成方法之一获得的表达数据更强的差异表达模式。具体来说,作者评估了 Maynard 等人的标记基因列表,这些标记基因之前被注释为在层子集中差异表达(Methods)。使用 PASTE 整合转录本计数矩阵,作者确定了 126 个标记基因中的 80 个在相应的层子集中显着差异表达(调整后的 P < 0.01 Wilcoxon rank-sum test),而 44-58 个标记基因在以下情况下差异表达:使用来自任何单个 ST 切片的原始计数数据(Supplementary Table 4)。此外,在 PASTE 分析中显着差异表达的一组已知标记基因包含几乎所有通过单独分析每个切片而鉴定的已知标记基因(Supplementary Table 4 and Supplementary Fig. 28)。尽管 scRNA-seq 整合方法 Seurat 和 Scanorama 报告了相似数量的显着差异表达标记基因(分别为 79 和 84),但它们通过分析单个切片发现的标记基因较少。

与 Maynard 等人的分析以及 scRNA-seq 整合方法 Scanorama 和 Seurat 的分析相比,已知的标记基因在 PASTE 生成的整合 ST 数据中也具有更高的排名(Supplementary Table 4)。具体来说,PASTE 中心切片中已知标记基因的中位排名为 427,而 Maynard 等人的分析结果中位排名为 1147,scRNA-seq 整合方法 Scanorama 和 Seurat 的中位排名分别为 3,380.5 和 1,852(Extended Data Fig. 9)。同时,PASTE 整合切片恢复了一些已知的标记基因,这些基因在 Maynard 等人使用的 pseudobulk 方法中并不显着。例如,第 3 层标记基因 MFGE8 在 PASTE 中心切片中差异表达(调整后的 P < 10−40,第 3 层排名 117),但在 Maynard 等人的分析中没有差异表达(调整后的 P < 0.15,第 3 层排名 912)(Fig. 6)。因此,使用 PASTE 整合切片进行差异表达分析可产生优于单切片分析的结果,并且可与 Maynard 等人在单个 spot 水平上的监督 pseudobulking 方法相比,但具有无监督且不需要先验知识的优点标记基因或空间组织。

讨论

作者引入了 PASTE,这是一种通过利用转录相似性和跨数据集 spots 之间的空间距离来对齐和集成来自同一组织的多个 ST 数据集的方法。PASTE 计算相邻 ST 切片上 spots 的成对切片对齐,并通过查找具有低秩表达矩阵的中心切片并将其 spots 映射到所有其他切片来执行多个 ST 切片的中心切片整合。PASTE 的两种模式在生成 3D 空间信息但每个 spot 具有相同的读取覆盖率与增加 2D 中每个 spot 的读取覆盖率之间提供了权衡。选择使用两种模式中的哪一种取决于感兴趣的生物学问题。

作者在模拟 ST 数据和来自正常组织和癌症组织的 ST 数据上展示了 PASTE 的一些优势。在来自 SCC 的 ST 数据上,作者表明,由 PASTE 推断的中心切片比仅使用重复之间的转录组相似性并忽略 spots 的空间坐标推断的已发表 clusters 具有更高的空间一致性。作者表明,四名患者中的三名已发表的转录组 clusters 的低空间一致性可能是这些样本中序列覆盖率较低的结果,因为从 PASTE 整合表达矩阵获得的转录组 clusters 在所有患者中具有较高的空间一致性。这一结果表明,仅根据转录组相似性得出有关组织空间组织的结论需要谨慎,并且利用组织切片内和组织切片之间的可用空间信息可以产生更可靠的结果。对人类 DLPFC 的 ST 数据进行 PASTE 分析,进一步证明了整合多个组织切片数据的优势。作者表明,PASTE 集成切片中的 spots 聚类比单个切片的聚类更准确地概括了已知的组织层,无需像 Maynard 等人那样手动选择基因,也不需要像 Zhao 等人那样明确建模空间聚类相关性。此外,作者表明,PASTE 整合切片中的差异表达分析以无人监督的方式恢复了已知的标记基因。在这两项任务中,PASTE 都优于仅基于 scRNA-seq 数据集成数据集的方法。

作者预计,PASTE 生成的对齐和集成的 ST 切片将提高多个下游分析的统计能力,包括细胞类型的识别、空间表达模式的推导、将 spots 反卷积为多个细胞、肿瘤与非肿瘤 spots 的分类、细胞间通讯的推断、基因组拷贝数变异的识别、ST 数据与其他单细胞模式的整合等等。此外,作者预计通过 PASTE 获得的堆叠 3D 空间重建将有助于扩展这些下游分析任务的当前方法,以利用 3D 空间信息。

有多种机会可以改进和扩展 PASTE。首先,PASTE 不使用通常伴随 ST 数据的组织学图像。相比之下,最近的软件包 STUtility 可以在不使用随附的基因表达数据和 spot 位置的情况下对齐组织学图像。作者预计,通过利用组织学图像和使用图像配准领域的方法,可以进一步改进 PASTE。此外,较新版本的 10x Genomics Visium 平台可结合基因表达测量蛋白质免疫荧光,提供包含在 PASTE 比对和整合中的另一个信号。其次,PASTE 的运行时间可以进一步提高,以支持具有更多点的下一代 ST 技术。特别是,可以使用图形处理单元 (GPU) 来加速最佳传输映射计算或使用数据的小批量或子集来近似最佳传输映射。第三,PASTE 可以应用于不同患者的 ST 实验,以发现不同患者基因表达的保守空间模式。然而,这需要调整 PASTE 优化的目标函数,以考虑空间结构和细胞组成存在显着差异的切片。第四,虽然作者将 PASTE 应用于来自 10x Genomics 的 ST 技术的数据,但我们注意到 PASTE 也可以应用于其他空间技术,例如 smFISH、seqFISH+、STARmap 和 Slide-Seq2。最后,开发改进的 ST 数据模拟器将有助于模拟真实数据的其他并发症,例如组织的挤压/拉伸。随着 ST 技术的日益普及,作者预计重复实验的对齐和整合将成为 ST 分析中越来越重要的部分。


<center>--------------- 结束 ---------------</center>


<p style="color: gray; font-size: 10px;">注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。</p>

本文由mdnice多平台发布


TigerZ知识宝库
4 声望8 粉丝