MoGUL：检测群体中常见插入和缺失的有效工具

### MoGUL：检测群体中常见插入和缺失的有效工具 #### 1. 引言在人类群体中识别各种多态性是理解人类基因型格局的重要一步。为了从低覆盖度测序的多个个体中识别常见的插入/缺失多态性，我们介绍一种名为MoGUL的工具。它通过模拟数据和1000基因组计划的数据进行了验证，能识别特定条件下的插入缺失。 #### 2. 方法识别插入缺失（indels）的主要困难在于区分来自有插入缺失位点的配对和具有异常插入片段大小的配对。每个个体的插入片段大小遵循特定分布，以往方法依赖高覆盖度的配对来区分，而MoGUL算法结合多个个体的配对以获得足够覆盖度。 - **映射配对到参考基因组**： 1. 使用MrFAST工具，识别每个配对在每个读取中最多有2个错配且映射距离最接近预期插入片段大小的映射。 2. 若映射距离在3个标准差内，只识别最佳映射；若未找到，返回所有可能映射。 3. 对于每个基因组位置，确定若该位置存在插入缺失会受影响的配对，这些配对的两个读取映射在基因组位置的两侧，称为一个簇。 ```mermaid graph LR A[开始] --> B[使用MrFAST工具映射配对] B --> C{映射距离在3个标准差内?} C -- 是 --> D[识别最佳映射] C -- 否 --> E[返回所有可能映射] D --> F[确定受插入缺失影响的配对] E --> F F --> G[形成簇] G --> H[结束] ``` #### 3. 聚类配对为每个基因组位点生成配对映射的簇，以确定该位点是否包含常见插入缺失。 - **生成簇**：对于每个配对，查看左读取后的一个碱基，所有重叠该位置的配对形成一个簇。 - **过滤簇**：计算每个个体的配对来自无插入缺失簇的可能性（p值）。若至少有一个个体的p值显著（< 0.001）或两个个体的p值不太显著（< 0.05），则该位点显著。 - **p值计算**： - 设{Dl1, ..., Dln}为对应第l个个体配对映射距离的独立同分布随机变量，其均值遵循高斯分布。 - p值定义为在无插入缺失情况下，至少有预测插入缺失大小（> γ）的概率。 - 计算公式：$p - value = \int_{\gamma}^{\infty} P(X; 0, \sigma_{Yl}/\sqrt{n}) = \int_{-\infty}^{0} P(X; \gamma, \sigma_{Yl}/\sqrt{n})$，其中$X = D - \mu_{Yl}$是预期插入缺失大小，P(X)遵循高斯分布。 #### 4. 使用贝叶斯网络检测常见插入缺失簇中的配对来自多个个体，每个个体的插入片段大小分布独特。定义变量$X_{lm}$为个体l的第m个配对的预期插入缺失大小：$X_{lm} = D_{lm} - \mu_{Yl}$。 - **贝叶斯网络**：开发贝叶斯网络来推断插入缺失多态性的大小和包含插入缺失的个体单倍型。 - 随机变量$Z_{l}$表示个体l是否有插入缺失：$Z_{l} = \begin{cases} 0, & \text{个体l无插入缺失} \\ 1, & \text{个体l有插入缺失} \end{cases}$ - 随机变量$Q_{lm}$表示个体l的两条染色体（等位基因）：$Q_{lm} = \begin{cases} 0, & Z_{l} = 1且染色体无插入缺失 \\ 1, & Z_{l} = 1且染色体有插入缺失 \\ 2, & Z_{l} = 0 \end{cases}$ - **概率分布**： - $p(Z_{l} = z|\pi) = \pi^{z}(1 - \pi)^{1 - z}$ - $p(Q_{lm} = q|Z_{l} = 1, \theta_{l}) = \theta_{l}^{q}

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

MoGUL：检测群体中常见插入和缺失的有效工具

相关推荐

专栏目录

MoGUL：检测群体中常见插入和缺失的有效工具

相关推荐

查㚱 mogul配件规格解析

Go-Mogul是一个Go的分布式锁和任务处理库

mogul.x-开源

bold_mogul

git常见操作.pdf

渗透测试之Nmap扫描工具

Go-Mogul：Go语言的分布式锁与任务处理解决方案

mogul.x：适用于小型网站的开源内容管理系统

Nmap：渗透测试中的关键扫描工具详解与应用

HTTP/1.1协议中文详解：RFC2616 规范与应用

Windows装机必备搜索工具Search Everything

第十一章荧光分析.ppt

专栏目录

最新推荐

自适应复杂网络结构中的同步现象解析

具有多重时滞和不确定参数的CRDNNs的无源性与同步性研究

HNPU-V1：自适应DNN训练处理器的技术解析与性能评估

利用大数据进行高效机器学习

网络数据上的无监督机器学习

OpenVX：跨平台高效编程的秘诀

计算机视觉中的概率图模型：不完整数据下的贝叶斯网络学习

SSH连接与操作全解析

语音情感识别：预加重滤波器与清音影响分析

言语节奏与大脑定时模式：探索神经机制与应用