MoGUL:检测群体中常见插入和缺失的有效工具
立即解锁
发布时间: 2025-08-30 01:17:28 阅读量: 3 订阅数: 16 AIGC 

### MoGUL:检测群体中常见插入和缺失的有效工具
#### 1. 引言
在人类群体中识别各种多态性是理解人类基因型格局的重要一步。为了从低覆盖度测序的多个个体中识别常见的插入/缺失多态性,我们介绍一种名为MoGUL的工具。它通过模拟数据和1000基因组计划的数据进行了验证,能识别特定条件下的插入缺失。
#### 2. 方法
识别插入缺失(indels)的主要困难在于区分来自有插入缺失位点的配对和具有异常插入片段大小的配对。每个个体的插入片段大小遵循特定分布,以往方法依赖高覆盖度的配对来区分,而MoGUL算法结合多个个体的配对以获得足够覆盖度。
- **映射配对到参考基因组**:
1. 使用MrFAST工具,识别每个配对在每个读取中最多有2个错配且映射距离最接近预期插入片段大小的映射。
2. 若映射距离在3个标准差内,只识别最佳映射;若未找到,返回所有可能映射。
3. 对于每个基因组位置,确定若该位置存在插入缺失会受影响的配对,这些配对的两个读取映射在基因组位置的两侧,称为一个簇。
```mermaid
graph LR
A[开始] --> B[使用MrFAST工具映射配对]
B --> C{映射距离在3个标准差内?}
C -- 是 --> D[识别最佳映射]
C -- 否 --> E[返回所有可能映射]
D --> F[确定受插入缺失影响的配对]
E --> F
F --> G[形成簇]
G --> H[结束]
```
#### 3. 聚类配对
为每个基因组位点生成配对映射的簇,以确定该位点是否包含常见插入缺失。
- **生成簇**:对于每个配对,查看左读取后的一个碱基,所有重叠该位置的配对形成一个簇。
- **过滤簇**:计算每个个体的配对来自无插入缺失簇的可能性(p值)。若至少有一个个体的p值显著(< 0.001)或两个个体的p值不太显著(< 0.05),则该位点显著。
- **p值计算**:
- 设{Dl1, ..., Dln}为对应第l个个体配对映射距离的独立同分布随机变量,其均值遵循高斯分布。
- p值定义为在无插入缺失情况下,至少有预测插入缺失大小(> γ)的概率。
- 计算公式:$p - value = \int_{\gamma}^{\infty} P(X; 0, \sigma_{Yl}/\sqrt{n}) = \int_{-\infty}^{0} P(X; \gamma, \sigma_{Yl}/\sqrt{n})$,其中$X = D - \mu_{Yl}$是预期插入缺失大小,P(X)遵循高斯分布。
#### 4. 使用贝叶斯网络检测常见插入缺失
簇中的配对来自多个个体,每个个体的插入片段大小分布独特。定义变量$X_{lm}$为个体l的第m个配对的预期插入缺失大小:$X_{lm} = D_{lm} - \mu_{Yl}$。
- **贝叶斯网络**:开发贝叶斯网络来推断插入缺失多态性的大小和包含插入缺失的个体单倍型。
- 随机变量$Z_{l}$表示个体l是否有插入缺失:$Z_{l} = \begin{cases} 0, & \text{个体l无插入缺失} \\ 1, & \text{个体l有插入缺失} \end{cases}$
- 随机变量$Q_{lm}$表示个体l的两条染色体(等位基因):$Q_{lm} = \begin{cases} 0, & Z_{l} = 1且染色体无插入缺失 \\ 1, & Z_{l} = 1且染色体有插入缺失 \\ 2, & Z_{l} = 0 \end{cases}$
- **概率分布**:
- $p(Z_{l} = z|\pi) = \pi^{z}(1 - \pi)^{1 - z}$
- $p(Q_{lm} = q|Z_{l} = 1, \theta_{l}) = \theta_{l}^{q}
0
0
复制全文
相关推荐







