HLA类型推断:基于相同血统单倍型的方法
立即解锁
发布时间: 2025-08-30 01:17:30 阅读量: 5 订阅数: 15 AIGC 

### HLA类型推断:基于相同血统单倍型的方法
#### 1. 引言
人类白细胞抗原(HLA)区域位于染色体6p21,编码人类主要组织相容性复合体(MHC)的基因。MHC是细胞表面蛋白,在适应性免疫反应中起着重要作用。这些蛋白与抗原肽形成复合物并呈现在细胞表面,该复合物被T细胞受体识别,从而触发适应性免疫反应,诱导细胞死亡和/或产生抗体。
HLA基因主要分为两类:
- **I类基因**:呈递细胞内的肽段,被CD8 + /细胞毒性T细胞识别,这些T细胞会杀死展示抗原的细胞。I类MHC基因包括HLA - A、HLA - B、HLA - C。
- **II类基因**:呈递细胞内液泡中的肽段,被CD4 + /辅助性T细胞识别,触发抗体产生。II类基因包括HLA - DP、HLA - DM、HLA - DOA、HLA - DOB、HLA - DQ和HLA - DR。
HLA基因具有高度多态性,例如HLA - A有893个等位基因,HLA - DRB有814个等位基因。大量的等位基因使免疫系统能够应对广泛的病原体。HLA基因的命名通常使用四位代码来区分蛋白质产物不同的等位基因,前两位代表等位基因家族,由血清学分型确定;第三和第四位代表氨基酸差异;其余数字代表其他非编码差异。
HLA基因与多种自身免疫性疾病(如克罗恩病和多发性硬化症)有关,并且在器官移植中需要匹配HLA类型。然而,HLA分型的实验方法耗时且昂贵,使用标签SNP的间接分型受到重组和选择的不寻常模式的影响,该区域的高连锁不平衡(LD)也限制了标准遗传变异模型的性能。
Leslie等人开发了一种基于等位基因组合或单倍型的HLA类型推断方法,使用隐马尔可夫模型计算观察特定HLA等位基因的概率。随着大规模基因分型队列的出现,已经开发出检测个体间相同血统(IBD)的工具,这种分析自然适用于HLA的单倍型结构。
本文提出了一种基于图的方法,利用HLA分型和未分型个体之间共享的片段来推断其可能的HLA类型,并提供了模型的理论描述和软件实现。
#### 2. 预备知识
为未分型数据推断单个位点的HLA类型定义了一个模型。一次研究一个位点,整个方法部分仅考虑当前位点。结果会对HLA区域的每个位点分别进行此类分析。
个体v在每个HLA位点与一对等位基因(α,β)相关联,表示HLA类型,记为v(α, β)。若α = β,则个体为纯合子。输入包括一组已知HLA类型的个体和另一组未知HLA类型的个体,分别称为已解析和未解析个体。使用GERMLINE推断已解析和未解析个体之间成对共享的未分型IBD片段,作为分析的起点。
IBD用无向图IBD - Graph($G_{IBD}$)表示,节点V对应有基因型数据的个体(已解析和未解析),边E表示IBD共享片段。实际中,输入可能是真实$G_{IBD}$的噪声版本$G_{0IBD}$,它包含真阳性边,但也有假阳性(非IBD节点间的边)和假阴性(IBD节点间缺失的边)。
$G_{0IBD}$中两个节点v(α, β)和w(γ, δ)之间的边表明节点共享一个或两个HLA类型,满足此条件的边称为一致边。但反之不成立,即两个节点共享相同HLA类型并不意味着它们是IBD。
HLA推断问题定义如下:
- **输入**:$G_{0IBD}(V, E_0)$和已解析子集$R⊂V$中所有节点r的已分配类型对(α(r), β(r))。
- **输出**:为所有未解析节点$u∈V \ R$分配类型对(α(u), β(u))。
- **目标**:最大化正确分配的节点。
由于目标无法根据可用数据直接定义,因此考虑一个替代优化准则,即寻求最大化一致边的分配。
采用迭代方法进行HLA推断,每次迭代调整IBD - Graph以保持边的一致性。第i次迭代的IBD - Graph记为$G_{iIBD}$,检测假阳性和假阴性边并分别移除和添加,形成第i次迭代的边集$E_i$。调整图后,为未解析节点推断可能的HLA类型和HLA类型对。
$G_{iIBD}$以节点三元组T(r1, r2, u)进行检查,其中r1, r2为已解析节点,u为未解析节点,且至少两条边(r1, r2)、(r1, u)和(r2, u)在$E_i$中。基于似然函数组合所有包含u的三元组的可能HLA类型和类型对,为未解析节点分配最可能的HLA类型。每次迭代预计会解析一些未解析节点,这些信息用于后续迭代推断剩余模糊或未解析节点的HLA类型。
##### 2.1 信息来源
定义可能的HLA类型的信息来源包括生成的三元组、与纯合子节点的匹配以及先前检测到的假阴性。三元组和纯合子匹配从$G_{iIBD
0
0
复制全文
相关推荐










