文章目录
鉴于笔者仍是该领域的初学者,下文如有不准确之处还请各位大佬不吝赐教,不胜感谢!
AlphaGenome 是由 Google DeepMind 于 2025 年 6 月发布的突破性 AI 模型,专门用于预测非编码区遗传变异的功能效应。该模型采用受 U-Net 启发的卷积架构结合 Transformer 模块,创新性地解决了传统模型在输入序列长度与预测分辨率之间的核心矛盾——能够在 1M 碱基对的超长上下文 下实现 单核苷酸分辨率 的精准预测。
AlphaGenome 具备强大的 多模态统一预测能力,可同时输出 5930 个人类 和 1128 个小鼠 基因组轨道,覆盖 RNA-seq、ChIP-seq、ATAC-seq、剪接位点等 11 个生物学模态。在性能表现上,AlphaGenome 在 24 项基因组轨道预测任务中的 22 项 和 26 项变异效应预测任务中的 24 项 均达到当前最佳水平(SOTA),打破了通用模型不如专用模型的传统认知。该模型为理解人类基因组中占 98% 的非编码变异提供了强有力的计算工具,在精准医学和基因组学研究中具有重要应用价值。
1. Abstract
摘要首先明确指出了当前领域的核心挑战:“Existing methods trade off between input sequence length and prediction resolution, thereby limiting their modality scope and performance.” 这一瓶颈的根源在于,主流的Transformer模型其计算复杂度高达 O ( N 2 ) O(N^{2}) O(N2),不适合做非常长序列的模型,尤其是在单核苷酸的分辨率下。如何突破这一限制,正是当前领域的研究焦点,并催生了如Hyena和Mamba等新型模型架构,旨在用其他机制(如卷积)平替注意力机制,以减少计算复杂度。目前,单核苷酸分辨率的模型效果往往优于多核苷酸分辨率的模型。
另外摘要还提及了AlphaGenome是以人类和小鼠基因组数据来训练的上下文长度为1M、单核苷酸分辨率的模型,它可以用DNA序列来预测一系列基因组轨道(genomic tracks),并在26个变异功能预测benchmark中24个都取到当前最好成绩。通过他的预测变异性能可以很好地解释TAL1癌基因附近临床相关变异的作用机制。
genomic tracks: 基因组轨道,是一条沿染色体坐标连续排列的数值向量,分辨率通常到单碱基,用来记录实验测得的信号强度或计数,在基因组浏览器里,每组数据占据一条水平带,看起来像并排的铁轨;多条轨道叠放即可在同一坐标下快速关联不同信息。(如下图)
数值常来自 RNA-seq、ChIP-seq、ATAC-seq、Hi-C 等高通量实验,对应的是读段覆盖度或信号强度;通常常可以在可视化工具(如 UCSC Genome Browser、IGV)中直观比较多条轨道,也可将这些向量传给深度学习模型,对变异的分子效应做出预测。
具体来说,深度学习模型把 DNA 片段映射成一组连续的 基因组轨道向量(每条轨道 = 一种实验信号在单碱基坐标上的数值曲线)。若对 参考等位基因 和 变异等位基因 分别推理,再把两条向量相减,就得到该变异对所有信号的“预期改变量”。大量研究表明,这个 Δ轨道既能解释局部分子机制(如 TF-Motif 破坏、剪接位点强度变化),也与真实 eQTL、疾病-关联 SNP 的方向和大小显著相关;因此,轨道差分已成为主流的 体外“变异效应”预测指标。
2. Introduction
人类基因组中超过98%的遗传变异都发生在非编码区,这些变异通过影响DNA的三维结构、表观遗传、基因表达和RNA剪接等多种复杂方式起作用,其功能难以直接解释。这类难以解释的问题通常借助深度学习模型来解决,一种**"sequence-to-function"模型应运而生,它接收一段DNA序列作为输入,并据此预测出基因组图谱**(genome tracks)。通过比较变异序列与参考序列的基因组图谱预测结果之间的差异,这些模型便能够预测出特定变异所产生的分子层面的效应。
目前"sequence-to-function"模型面临着两个核心技术瓶颈:首先是分辨率与上下文长度之间的矛盾。当模型追求单核苷酸级别的精细分辨率时,由于transformer架构固有的高计算复杂度特性,其能够处理的序列长度被严重限制在10kb以内;相反,如果采用多核苷酸分辨率的策略来扩展上下文范围,模型则容易丢失那些对生物功能至关重要的精细调控特征。第二个挑战在于专用模态与通用多模态之间的性能取舍。当前的最先进(SOTA)模型往往在单一或少数几个生物模态上表现卓越,但这类专门化模型无法全面捕获遗传变异在不同生物学层面产生的复杂多样化分子效应;而多模态模型虽然具备更强的通用性和适用范围,但在处理特定单一模态任务时,其表现通常不如该领域内的专门化模型那样出色。
这一现象与大语言模型的发展轨迹很类似:最初各领域纷纷推出专有 benchmark,垂直模型在对应测试中确实能击败通用模型。然而实际落地时,为每个细分场景各自维护一套模型不仅运维成本高,流程也极为繁琐。反观通用模型,仍拥有巨大的性能提升空间,而且其整体进步幅度往往远超在单一垂直模型上做局部优化的收益——即便在那些垂直领域自身也是如此。由此可见,行业最终仍将通用模型视作主流发展方向。
而本文提出的AlphaGenome,是一个以长序列上下文(1M)DNA 序列作为输入、单核苷酸分辨率,预测多种细胞类型中的各种基因组轨迹的单架构模型。在 24 项基因组轨迹预测任务中, 在 22 项中取得了SOTA;在 26 项变异效应预测任务中,在 24 项中取得了SOTA。这打破了通用模型不如垂直领域专用模型的壁垒,研究者们进行了对目标分辨率、序列长度、蒸馏和模态组合进行了广泛的消融研究,以研究模型的成功之处。
数据消融实验: 在机器学习研究中,数据消融实验(ablation study)是一种“控制变量法”——通过系统地删除或替换模型的某些输入、特征或子模块,观察性能变化,从而量化它们的真实贡献。这类实验不仅能揭示模型依赖哪些信号,还能指导后续的特征工程与模型简化。
3. Results
3.1 Model architecture & traning procedure
AlphaGenome可以同时预测5930个人类以及1128个小鼠基因组轨迹 ,其中覆盖了11个模态:RNA-seq (测量基因表达丰度)、CAGE (精确定位基因转录的起始位置并量化其活性)、PRO-cap (高精度识别活跃的转录起始位点)、Splice sites (识别内含子与外显子的精确边界)、Splice site usage (量化特定剪接位点的使用频率)、Splice junctions (预测外显子之间的连接方式)、DNase-seq (识别染色质的开放区域)、ATAC-seq (鉴定染色质的可及性/开放区域)、Histone modifications (检测调控基因活性的组蛋白化学修饰)、TF binding (确定调控蛋白/转录因子的结合位点)、Chromatin contact maps (揭示基因组在三维空间中的折叠与接触)。(其中的对应关系:研究人员在不同的组织、细胞类型、细胞系中都测量的数据算作不同轨迹,例如:肝脏细胞 中测量的RNA-seq数据 ;神经细胞 中测量的RNA-seq数据;皮肤细胞 中测量的RNA-seq数据被视为3条轨迹。)而选择1M作为上下文长度的原因是在已验证的增强子-基因对中,99%范围都在1M以内。
AlphaGenome采用了一种受 U-Net 启发的卷积架构,卷积层用于建模精细预测所需的局部序列模式,而 Transformer模块 则用于建模序列中更粗略但更长程的依赖关系,例如增强子-启动子相互作用。可以看到上图的顶端,输入序列被划分成了8个片段,片段和片段直接存在一定长度的重叠(overlapping)。这是为了分担显存压力以及提升计算速度(1Mb的上下文太大了),将输入序列分成了8个互联的张量处理单元(TPUv3, Tensor Processing Unit)进行序列并行化。而当模型中的卷积层处理一个DNA序列时,它不是一次只看一个碱基,会看一个中心碱基以及它周围的邻居(这个范围被称为“感受野”或“卷积核大小”),因此片段与片段之间保留了1kb的overlap。至于开头和结尾会有部分缺失,则使用填充(padding)“N” 的方式来补齐缺失的上下文。尽管 Transformer 模块被拆分到多台设备,子模块之间仍保持全局通信,因此无需考虑上述问题。
接下来是U-net的核心架构:先降采样(Downsampling)再上采样(Upsampling)的过程,分别对应Encoder和Decoder。第一步输入序列的向量通道数量是4,分别其实就对应G、C、T、A。假设卷积核输入序列长度是2kb,那么模型就会把以该点碱基为核心上下文长度为2kb,序列输入给卷积核,卷积核可以视为一个“多序列模式识别器”,当然单个特征可能是多个通道叠加的,最终映射到了768个通道上,这样序列的每个点对应的向量就不单包含自己本身的信息还包括了上下文的信息,这个时候模型使用一个“最大池化层 (Max Pooling)” :即它会每2个相邻的位置分为一组,然后只保留这组里分数最高的那个位置,这样分辨率就变成了2bp,这样依次类推直至128bp。所以这里的Downsampling和传统机器学习中的概念不同,并不是直接舍弃位置的原始向量,而是对“已融入上下文的特征向量”进行重采样,这往往是初学者理解的一个误区。因此,即便分辨率降低,也最大程度保留了序列信息与连贯性。
上采样的于降采样的过程几乎是完全相反对称的,模型首先从降采样的最终结果入手,利用重复(Repeat)来恢复长度,例如[特征A, 特征B]
变成 [特征A, 特征A, 特征B, 特征B]
,假设现在的通道数是1536,那么就需要取回上一层通道数略小于这一层(1408)、但长度相同(4)的向量,然后将会对这两个向量进行融合,返回一个新的(4*1408)的向量,具体来说,会有一个新的卷积核将通道数为1536的向量压缩至同一通道数(1408),然后再将两个向量相加,作为融合的结果,这一过程叫做融合跳跃连接(skip connections),也是U-net的精髓所在。依次类推,最终,模型得到了一个和输入序列一样长,但通道数极高(768维)的特征表示。这个特征表示的每个位置都既包含了全局长距离的调控信息,又包含了精确的局部碱基模式信息,可以被送入不同的“输出头”来预测各种基因组事件 。
理解不了上述过程的也不要紧,举一个简单的例子:假设你有一个1小时的8K电影素材,文件巨大;而你想给电影做一个非常复杂的调色和特效,你得定位具体位置并在素材上进行操作,如果你直接在每一帧8K的画面上直接进行计算和渲染,那么你的电脑会卡到冒烟,可能几天都处理不完。但是你如果先创建一个低分辨率的版本(比如360p的高清版)。这个版本文件很小,播放流畅。然后你在这上面进行所有复杂的决策和计算,比如设计整体色调、规划特效的运动轨迹等等。因为文件小,这个过程非常快,在完成所有决策后,你再回到8K素材,将这些决策融合到素材内。这样即完成了任务处理又节约巨量的计算资源。那么例子中的"复杂的决策和计算"究竟指的是什么呢?全局长距离的调控信息,也就是Transfromer负责的内容所在,正如前文中所提及的,Transformer计算复杂度特别高,因此不得不通过这种方法降低分辨率来计算,然后再将计算得到的信息映射到原始序列中,这就是整个模型思路的核心。
得到上述的一个和输入序列一样长,但通道数极高(768维)的特征后,就可以用来预测genome track,对于绝大多数genome track而言,使用线性变换(**linear transformations)**就可以直接预测。但对于少数track,例如剪接点预测,简单的线性变换就不够了,后面会讲到一套专门化的复杂机制来处理它。这里还需要注意有一些genome track预测时输入输出的分辨率不是1bp,例如Histone mods和TF binding就是128bp。
为什么只有Histone mods和TF binding采用128bp的分辨率呢?
Histone mods和TF binding的实际实验结果都依赖于ChIP(Chromatin ImmunoPrecipitation)-seq“染色质免疫共沉淀 (ChIP)” 与二代测序结合的技术,具体来说,首先用甲醛把细胞内的 DNA-蛋白复合体固定,然后用超声或微核酸酶将染色质剪成 ~200 – 600 bp 片,用特异抗体“拉下”含目标蛋白或修饰的 DNA 片段;回收 DNA,建库,上机测序,然后把读段比对回参考基因组,绘出富集“峰”。而这种方法只能把目标蛋白(或组蛋白修饰)含量“大致”定性定位到一段 DNA 片段,而不是精准到单个碱基。因此从实际实验结果角度出发,使用128bp分辨率是比1bp更好的选择。需要单碱基精度的剪接信号、ATAC-seq 等轨道则保留 1 bp 输出。
另外,更特殊的是Contact Map,它的分辨率是2048bp的二维输入,专门用来预测基因组片段间的空间相互作用 。它对应的训练数据是 Hi-C 和 Micro-C ,这些技术是专门用来捕捉到在细胞核内,基因组上哪些区域在三维空间中是物理上相互靠近的。为什么使用2048bp呢?2048 bp 是一个“sweet pot