随着生物信息学的不断发展,基因组学研究逐渐深入到对群体遗传多样性的探索,泛基因组研究应运而生。在泛基因组研究中,数据的可视化呈现成为理解、分析复杂基因组数据的关键环节。袋鼠云数智应用与国内某双一流生物信息研究小组合作,自研完成国产化泛基因组可视化算法与应用,是袋鼠云进军基因科研/医疗科研行业的重要尝试。

一、背景介绍
在了解泛基因组可视化之前,首先我们需要理清2个问题:什么是泛基因组?什么是泛基因组数据可视化?

1.1 什么是泛基因组
泛基因组的概念区别于参考基因组(Reference genome)。

在21世纪初,对于基因变异的研究往往依托于参考基因组。当时,如果想要研究个体的基因变异,可以选择将该个体样本的基因组序列与参考基因组这个标准参考系进行比对,根据个体基因组与参考基因组的序列差异(或者说变异),研究性状与基因变异之间的关联性。这种研究方式在研究遗传病起源、靶向药物开发等课题中颇有建树。

然而,围绕参考基因组的研究方式存在一个不容忽视的缺陷:它无法以群体为单位描述内部所有个体的基因变异情况。例如:当科研人员要研究汉族人共性的基因序列变化特征对其生理现象的影响时,由于单一参考基因组自身结构的局限性。会导致研究进度缓慢,研究成本高昂。

由此泛基因组(pan-genome)的概念应运而生。

不同于参考基因组,泛基因组是目标群体内所有个体的基因信息的集合。泛基因组的研究可在群体视角揭示物种遗传的多样性,同时发现更多的遗传变异,如SNP(单一核苷酸多态性)、SV(巨大基因片段的结构变异)、PAV(存在或缺失变异)等。

综合来说,泛基因组有着变异信息整合更全面、分析方法更高效的优点,当前在热门生物信息研究领域,如农作物/动物育种改良、野生濒危物种保护、生物技术产品开发、个性化医疗等领域中受到充分重视。

1.2 什么是泛基因组可视化
泛基因组可视化是一种主流的泛基因组数据呈现方式。

它将基因碱基序列片段作为节点(node), 将碱基序列片段之间的连接关系作为边,由等位基因的变异结构差异形成不同的bubble分支。形成泛基因组图像(graph)(图1)。

file
图 1 一种泛基因组可视化案例

尽管这种呈现方式仍有假阳性变异结果检出等缺陷,但由于有着逻辑合理、图例直观等优势,依旧被学界在基因科研、医疗科研广泛应用。本次数智应用也基于这个方向进行实践落地。

二、历史与困境
2.1 信创可视化算法的缺位
自泛基因组学诞生阶段(2015年)以来,中国科研团队在泛基因组分析技术上有过长足的探索,但在可视化领域迟迟不见打破国外技术垄断。

2.2 笨重的使用体验

传统的泛基因组可视化软件往往只可部署于本地,且只可渲染储存于本地的泛基因组数据。在大型基因组数据的分发、共享上不见突破。尤其对于大体量的泛基因组非结构化数据文件(>100Gb),科研人员往往需要手工分割文件再分批渲染,费时费力。

三、我们的答案
3.1 信创的泛基因组可视化算法
本应用在深入调研市面上常见的泛基因组可视化算法的前提下,归纳各家优缺点,与国内某顶尖双一流大学的生物信息研究小组共创,从零自主研发泛基因组可视化算法。填补了生物信息研究领域中,国产泛基因组结构可视化算法的空白。

3.2 B/S架构的高效云端科研工具
本应用基于B/S架构与JAVA语言开发。用户无需安装客户端,仅通过浏览器即可访问本应用。同时实施基于角色的访问控制(RBAC)机制,确保用户只能访问和操作与其角色和组织相关的数据,保护各领域的生物信息数据安全的同时,也保障了数据解析、图像渲染的高效。

四、应用介绍
4.1 数据基础
袋鼠云与国内某顶尖双一流大学的生物信息研究小组合作,以其提供的原始数据为基础,抽离核心关键特征数据,构建泛基因组可视化算法。本次实践中,我们主要使用以下非结构化数据作为基础:

基因组组装图元素数据:

它包含了用于构筑泛基因组图像的核心元素,如节点信息、连接信息、路径信息、样本信息等。通过袋鼠云自研的可视化算法,根据用户输入的基因片段区间,应用可将这些图像元素信息,自动以高可读性的形式拼装为泛基因组图像(graph)。

基因组注释信息数据:

它包含了外显子等重要基因片段的序列名、来源、特征、相位等信息。借该类数据将基因片段与主流基因文献数据库(Ensembl等)的信息内容进行关联。

4.2 核心场景介绍
袋鼠云数智应用围绕真核生物的泛基因组数据,研发了泛基因组可视化应用,包含:基因索引工具、基因注释数据查询等模块。本文仅着重介绍泛基因组可视化这一核心场景。该场景具有以下三大核心特性:

基于参考序列的渲染目标定位逻辑
在渲染真核生物的泛基因组时,由于完整数据量非常庞大,而用户往往只需要查看目标片段的图像,因此我们选择将参考序列(Reference Sequence)作为定位渲染目标的参考系,以便确定可视化的渲染区间。

用户可以输入本次渲染的目标染色体(chr),以及参考序列区间(pos start - pos end)即可发起渲染请求(图2)。

根据用户输入,系统在预处理的基因组组装图数据库中定位所有可视化元素,如节点(node)、链接(link)等,作为前端的渲染目标。

file
图 2 用户输入目标染色体与参考序列坐标区间

参考序列(主干)与bubbles(变异支干)的二元渲染逻辑
可视化算法以“先主干、后支干”的原则,分别调用不同算法,渲染泛基因组可视化图像元素。

首先,系统会先拼装出参考序列(主干)节点,并且保障每个节点之间的距离分布合理,足够容纳bubbles结构(变异支干)。 之后,系统将高效遍历样本数据库,找到这段主干区间里所有样本包含的bubbles结构(变异支干),拼装到各个主干节点上(图3)。

file
图 3 主干-支干的二元渲染逻辑

科学性与可读性优先

在算法设计上,我们相信:只有坚持科学性与可读性优先的原则,才能让可视化结果揭示泛基因组所表达的基因变异结构与多态性。这一点也体现在图例尺寸的严谨性中。

节点(node)元素需要直观反映其结构大小。因此我们规定:每一个节点的长度都与它的实际碱基长度一致。在数据上。团队提前解析了每个节点元素的碱基长度,以便在可视化时可直接调用每个节点的长度。

五、未来展望
当前,泛基因组可视化应用已完成第一阶段的开发与试用,可满足基本的可视化需求。在未来,我们可能会从以下方向优化应用,使其在基因组学研究中为科研工作者提供更多的能力:

更大体量数据的高效渲染能力:

目前,泛基因组可视化应用在100Kbp左右体量的动物泛基因组渲染场景中展现了可靠的性能。在未来版本中,我们将进一步优化算法,追求10Mbp体量泛基因组数据的高效渲染。

样本单倍型分析等数据分析场景:

可视化的完成仅仅是泛基因组数据的研究的一小步。后续我们深入研究单倍型数据分析为首的等基因科研场景,提供单倍型划分、单倍型频率统计等综合性数据分析能力。

探索AI语言大模型与科研工作结合的新场景:
科研是知识的再生产。当前AI语言大模型在辅助高度倚靠数据和知识的工种上,展现出了高度潜力。经过专业训练的大模型,可以分发专业领域知识,为科研工作者查漏补缺。亦有可能通过分享其他行业的知识储备,为科研工作者提供方法论支持。因此‘科研辅助AI’场景是数智应用重点关注的探索方向。

附录、参考文献

Pan-genomics in the human genome era
, Nature Reviews Genetics volume 21, pages 243–254 (2020)


袋鼠云数栈
7 声望4 粉丝