一、CoV-KGE:以 RotatE 为核心的 COVID-19 药物重定位流水线
1.1 问题形式化
给定一个大规模生物医学知识图谱
G={(h,r,t)}⊆E×R×E,
\mathcal{G} = \{(h, r, t)\} \subseteq \mathcal{E} \times \mathcal{R} \times \mathcal{E},
G={(h,r,t)}⊆E×R×E,
其中 E\mathcal{E}E 为实体集合(药物、疾病、基因、蛋白、通路等),R\mathcal{R}R 为关系集合(“治疗”、“抑制”、“表达上调”等)。目标是学习一个打分函数
fθ:E×R×E→R,
f_\theta: \mathcal{E}\times\mathcal{R}\times\mathcal{E} \to \mathbb{R},
fθ:E×R×E→R,
使得对于“药物 ddd 治疗 COVID-19”这一潜在三元组,其得分显著高于随机负样本。
1.2 图谱构建
作者首先从 24M 篇 PubMed 摘要与 DrugBank 中抽取 39 类关系,形成包含 15M 条边的原始图。实体归一化采用如下级联策略:
(1) 基因统一映射至 Entrez ID;
(2) 疾病以 MeSH 词表为主键,辅以 ICD-10 消歧;
(3) 药物以 DrugBank accession number 为唯一标识。
随后,将 SARS-CoV-1、MERS-CoV、HCoV-229E 等冠状病毒合并为虚拟节点 “CoVs”,所有与病毒相关的基因—疾病、药物—基因边被重定向到该虚拟节点,以共享跨病毒知识。
1.3 嵌入模型:RotatE 假设与参数化
RotatE 将每个实体 e∈Ee \in \mathcal{E}e∈E 表示为单位复数向量 e∈Ck\mathbf{e} \in \mathbb{C}^ke∈Ck,每个关系 r∈Rr \in \mathcal{R}r∈R 表示为旋转角度 θr∈Rk\boldsymbol{\theta}_r \in \mathbb{R}^kθr∈Rk。三元组真值由以下距离度量决定:
fθ(h,r,t)=∥h∘exp(iθr)−t∥2,
f_\theta(h, r, t) = \bigl\| \mathbf{h} \circ \exp(i\boldsymbol{\theta}_r) - \mathbf{t} \bigr\|_2,
fθ(h,r,t)=h∘exp(iθr)−t2,
其中 ∘\circ∘ 为元素级乘积。优化目标为带 margin 的负对数似然:
L=∑(h,r,t)∈Glogσ(γ−fθ(h,r,t))+∑(h′,r,t′)∈Nlogσ(fθ(h′,r,t′)−γ),
\mathcal{L} = \sum_{(h,r,t)\in\mathcal{G}} \log\sigma\bigl(\gamma - f_\theta(h,r,t)\bigr) + \sum_{(h',r,t')\in\mathcal{N}} \log\sigma\bigl(f_\theta(h',r,t') - \gamma\bigr),
L=(h,r,t)∈G∑logσ(γ−fθ(h,r,t))+(h′,r,t′)∈N∑logσ(fθ(h′,r,t′)−γ),
N\mathcal{N}N 通过均匀负采样构造。训练细节:维度 k=200k = 200k=200,batch size = 1024,margin γ=12\gamma = 12γ=12,学习率 0.1,共 16000 epochs,在 AWS p3.8xlarge 实例(8×V100)上耗时约 40 分钟。
1.4 候选排序与临床验证
该研究通过多种方法验证了其提出的CoV-KGE方法的有效性和预测结果的可信度,具体验证步骤如下:
1. 使用临床实验数据验证预测药物
研究者将正在进行的新冠肺炎临床试验中的药物(如羟氯喹、氯喹、洛匹那韦等)作为验证集,通过计算AUROC(曲线下面积)评估模型性能。CoV-KGE的AUROC达到0.85,表明模型能显著区分有效与无效药物。
2. 转录组与蛋白质组数据验证
研究使用了3个SARS-CoV-1感染人类细胞的转录组数据集(GSE1739、GSE33267、GSE122876)和1个SARS-CoV-2感染细胞的蛋白质组数据集。通过基因集富集分析(GSEA),计算药物与病毒基因特征的关联性,筛选标准为富集分数(ES)>0且显著性(P值<0.05)。结果显示,41种候选药物(如托瑞米芬、尼古酰胺、吲哚美辛)的基因表达谱与病毒诱导的基因变化显著相关。
3. 实验文献支持
研究引用了体外和体内实验数据支持预测结果。例如,吲哚美辛被证实能抑制SARS-CoV-1和SARS-CoV-2的活性(IC50=1 μM),并在感染犬模型中缩短恢复时间;托瑞米芬对埃博拉、MERS-CoV、SARS-CoV-1/2均显示抗病毒活性(IC50=1-12 μM);尼古酰胺对SARS-CoV-2的抑制活性强(IC50=0.28 μM)。
4. 知识图谱的可解释性验证
通过t-SNE可视化,将药物在嵌入空间的向量降维至2D,显示同类药物(按ATC分类)聚集,验证了模型捕捉药物相似性的能力。此外,机制分析表明,例如羟氯喹通过抑制内体膜融合和抗炎作用,与已知生物学机制一致。
5. 计算与统计方法
研究将知识图谱三元组按7:1:2划分训练、验证和测试集,确保模型的泛化性。使用RotatE嵌入模型(维度200,边际损失γ=12),通过负采样优化。代码和数据已公开于GitHub(https://github.com/ChengFLab/CoV-KGE),增强了研究的可重复性。
总结
验证过程结合了计算性能评估(AUROC)、多组学数据(转录组/蛋白质组)、实验文献支持和机制解释,全面证明了CoV-KGE方法的可靠性。最终筛选的41种药物中,11种已进入临床试验(如地塞米松、阿奇霉素),进一步支持了预测的实用性。
二、PharmKG:融合异构特征的 HRGAT 框架
2.1 图谱构建与特征附着
PharmKG 从六个权威数据库与 GNBR 文献挖掘结果中抽取 29 类关系,实体规模 7603,关系规模 500,958。为了克服传统 KG 只保留拓扑结构的局限,作者为每类实体附加多组学特征:
- 药物:RDKit 计算的 1024 位 ECFP 指纹 + 166 维物化属性(MW、LogP、TPSA 等);
- 基因:BioGPS 与 CMap 中 4759 个基因在 73 种组织中的表达谱,经 PCA 降至 100 维;
- 疾病:从 MONDO 与 Orphanet 描述文本经 BioBERT 编码后平均池化,得 100 维语义向量。
最终形成实体特征矩阵 X∈R∣E∣×100\mathbf{X} \in \mathbb{R}^{|\mathcal{E}|\times 100}X∈R∣E∣×100,关系特征矩阵 R∈R∣R∣×100\mathbf{R} \in \mathbb{R}^{|\mathcal{R}|\times 100}R∈R∣R∣×100(由 TransE 初始化)。
2.2 HRGAT 的层级信息聚合
HRGAT 在图注意力网络 GAT 基础上引入“异构邻居”概念。对任意目标实体 viv_ivi,其第 lll 层表示更新公式为:
hi(l+1)=σ(∑r∈R∑j∈Nirαij(l,r)Wr(l)hj(l)),
\mathbf{h}_i^{(l+1)} = \sigma\left(\sum_{r\in\mathcal{R}}\sum_{j\in\mathcal{N}_i^r}\alpha_{ij}^{(l,r)}\mathbf{W}_r^{(l)}\mathbf{h}_j^{(l)}\right),
hi(l+1)=σr∈R∑j∈Nir∑αij(l,r)Wr(l)hj(l),
其中注意力系数为:
αij(l,r)=exp(LeakyReLU(ar(l)⊤[Wr(l)hi(l)∥Wr(l)hj(l)]))∑k∈Nirexp(LeakyReLU(ar(l)⊤[Wr(l)hi(l)∥Wr(l)hk(l)])).
\alpha_{ij}^{(l,r)} = \frac{\exp\left(\text{LeakyReLU}\left(\mathbf{a}_r^{(l)\top}[\mathbf{W}_r^{(l)}\mathbf{h}_i^{(l)} \parallel \mathbf{W}_r^{(l)}\mathbf{h}_j^{(l)}]\right)\right)}{\sum_{k\in\mathcal{N}_i^r}\exp\left(\text{LeakyReLU}\left(\mathbf{a}_r^{(l)\top}[\mathbf{W}_r^{(l)}\mathbf{h}_i^{(l)} \parallel \mathbf{W}_r^{(l)}\mathbf{h}_k^{(l)}]\right)\right)}.
αij(l,r)=∑k∈Nirexp(LeakyReLU(ar(l)⊤[Wr(l)hi(l)∥Wr(l)hk(l)]))exp(LeakyReLU(ar(l)⊤[Wr(l)hi(l)∥Wr(l)hj(l)])).
多头机制与残差连接被用于稳定训练。输出节点向量与关系向量拼接后送入 ConvKB 解码器,获得三元组得分。
2.3 训练与评估
采用 8:1:1 训练-验证-测试划分,优化器为 Adam,学习率 0.001,batch size 512,训练 1000 epochs。评价指标采用 MRR、Hits@N(N=1,3,10,100)以及面向下游任务的 AUROC/AUPR。HRGAT 在 PharmKG 上 MRR 达到 0.154,相比 ConvKB 提升 4.8%,在 Hetionet 子集上提升 1.6%,且消融实验表明移除异构特征后 MRR 下降 0.016(p<0.001p < 0.001p<0.001),证实多组学特征的必要性。
2.4 下游案例:阿尔茨海默病靶点识别
在验证下游任务的有效性时,研究团队通过以下步骤进行了系统评估:
-
任务选择与关系预测评估
研究选择了两个典型的下游任务——药物重定位(drug repurposing)和靶标识别(target identification),这些任务直接依赖于知识图谱中关系的预测能力。通过划分训练集、验证集和测试集(8:1:1的比例),使用排名指标(如MRR和Hits@N)评估模型在关系推理中的表现。结果显示,HRGAT模型在PharmKG和Hetionet数据集上均优于其他基线模型,例如在Hits@100上比ConvKB提高了10.1%。 -
特定任务指标(AUROC和AUPRC)
针对药物重定位和靶标识别任务,研究进一步计算了ROC曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)。HRGAT在药物重定位任务中达到AUROC 0.912和AUPR 0.911,显著高于其他模型(如ConvKB的0.807和0.813)。这一结果表明,模型能够有效区分正负样本,适用于实际生物医学应用。 -
案例研究与文献验证
研究通过具体案例验证预测结果的生物学意义。例如:- 药物重定位:预测的阿尔茨海默病候选药物如依那普利(enalapril)和伊马替尼(imatinib)得到了文献支持(PMID: 23772169, 17440101)。
- 靶标识别:预测的靶标基因(如FASLG和CYP2E1)与疾病机制的关联已被前人研究证实(如β-淀粉样蛋白诱导的神经元死亡和氧化应激作用)。
-
可视化与路径分析
通过可视化知识图谱中的最短路径(如图6所示),研究展示了模型如何利用多跳邻居信息生成假设。例如,模型通过CYP2D6代谢路径关联阿托莫西汀(atomoxetine)与帕金森病,揭示了潜在的生物学机制。 -
消融实验
通过移除异质特征(HRGAT-w/o)的对比实验,验证了这些特征对性能的关键作用。例如,HRGAT-w/o在MRR和Hits@100上分别下降0.016和6.3%,表明域特定信息显著提升了模型表现。
综上,研究通过定量指标、生物学案例和消融实验,系统验证了PharmKG和HRGAT在下游任务中的有效性,同时强调了其在生成可解释假设方面的优势。
三、PrimeKG:面向精准医学的多模态图谱构建
3.1 数据资源与标准化
PrimeKG 整合了 20 个高质量来源,包括 MONDO、DrugBank、CTD、Orphanet、Mayo Clinic、SIDER 等,覆盖 129,375 节点、4,050,249 条边。节点类型包括药物、疾病、蛋白、表型、通路、暴露因素等 10 大类,边类型 30 类,涵盖指示、禁忌、超说明书使用等罕见但临床关键的关系。
标准化流程如下:
(1) 利用 MONDO 疾病本体作为 “主键”,将 UMLS、Orphanet、ICD-10、SNOMED CT 中的疾病概念通过 OMIM、NCIT、MeSH 等中间本体映射至 MONDO;
(2) 使用 ClinicalBERT 将疾病名称映射到 768 维语义空间,通过余弦相似度 ≥ 0.98 及人工审核完成疾病聚类,将 22,236 个 MONDO 概念归并为 17,080 个临床实体,显著提升节点密度;
(3) 将药物节点以 DrugBank ID 为主键,补充分子描述、适应症、药代动力学等文本特征;疾病节点则汇总 MONDO 定义、Orphanet 流行病学、Mayo Clinic 临床指南,形成可读的临床描述。
3.2 图谱构建与质量控制
经过清洗、去重、反向边补全、最大连通子图抽取后,PrimeKG 保留 99.998% 的边,文件大小 1.4 GB,普通 CPU 5 秒内可加载。图谱以 CSV 三元组形式发布,支持 NetworkX、igraph、PyG 等主流框架直接读取。
3.3 案例:
在验证PrimeKG在下游任务中的有效性时,研究团队采用了以下方法:
-
网络邻近性分析
通过分析药物与疾病之间的最短路径距离,研究团队发现PrimeKG能够有效识别药物重定位的机会。例如,在11种FDA新批准的药物中,PrimeKG成功识别了8种药物的重定位潜力,这些药物与其新适应症之间的网络距离显著短于随机预期(P ≤ 0.05)。这表明PrimeKG的网络结构能够捕捉到药物与疾病之间的潜在关联。 -
临床相关性验证
以自闭症谱系障碍为例,研究团队验证了PrimeKG中疾病节点的临床相关性。通过将MONDO疾病本体中的37个自闭症相关概念与临床定义的三种自闭症亚型(癫痫、多系统及胃肠道疾病、精神疾病)进行对比,发现PrimeKG的分组策略能够将这些概念整合为更具临床意义的节点,从而支持精准医学研究。 -
多模态数据整合
PrimeKG不仅包含结构化数据(如基因-疾病关联),还整合了非结构化的临床指南和药物描述。这种多模态特性使得PrimeKG能够支持更全面的分析,例如通过自然语言处理技术挖掘文本中的临床信息,进一步验证了其在解释疾病机制和药物作用方面的实用性。 -
与现有知识图谱的对比
研究团队将PrimeKG与SPOKE、HSDN和GARD等现有知识图谱进行了对比。结果显示,PrimeKG在疾病覆盖范围(尤其是罕见病)、药物-疾病关系多样性(如禁忌症和超说明书用药)以及多模态数据整合方面均优于其他图谱,进一步证明了其在下游任务中的优势。 -
实际应用案例
通过实际案例(如家族性高胆固醇血症的药物重定位),研究团队展示了PrimeKG在辅助决策中的潜力。例如,通过分析网络路径,PrimeKG能够快速定位潜在的候选药物,显著提高了研究效率。
综上所述,PrimeKG通过多种方法验证了其在下游任务中的有效性,包括网络分析、临床相关性评估、多模态数据整合以及与现有资源的对比,展示了其在精准医学研究和药物开发中的实用价值。