一种基于丰度的宏基因组序列分箱新算法

### 一种基于丰度的宏基因组序列分箱新算法 #### 1. 自动确定分箱总数在EM算法中，需要输入分箱数量来确定混合泊松分布的参数。然而，在大多数宏基因组项目中，这个数量通常是未知的。因此，采用了递归分箱方法来自动确定分箱总数。递归分箱方法是一种自上而下的方法，它先将数据集分成两个分箱，然后进一步拆分分箱。该方法的灵感来源于观察到来自高丰度基因组的读数比低丰度的读数更容易分类。递归过程会在以下三个条件满足时继续： 1. 两个分箱的预测丰度值差异显著，即 $|\lambda_i - \lambda_j| / \min(\lambda_i, \lambda_j) \geq 1/2$。 2. 预测的基因组大小大于某个阈值（目前设定为400,000，考虑到目前发现的最小生物体基因组约为500,000 bp）。 3. 每个分箱相关的读数数量大于父分箱中分类的总读数数量的某个阈值比例（3%）。 #### 2. 性能评估将分类错误率定义为错误分类的读数数量除以总读数数量。为了评估分箱方法的性能，考虑使用标准错误率，而不是归一化错误率，因为AbundanceBin利用了不同物种的丰度信息。为了进行比较，也提供了归一化分类错误率。 #### 3. 宏基因组数据集使用MetaSim生成具有不同丰度物种读数的合成宏基因组数据集。MetaSim以一组已知的基因组序列和丰度概况作为输入，该概况决定了模拟数据集中每个基因组序列的相对丰度。MetaSim定义的“Exact”概况用于生成无测序错误的读数，“454”概况用于生成具有454错误模型的读数。读数的数量以及读数长度的均值和方差会相应调整： - 平均400 bp时，均值设为400，方差设为50。 - 75 bp时，均值和方差分别设为75和5。其他设置保持默认。用于生成合成宏基因组数据集的基因组，以及AMD宏基因组序列及其支架均从NCBI下载。 #### 4. 实验结果 ##### 4.1 丰度差异和l - 元组长度测试进行了一系列实验来测试准确分箱读数所需的物种丰度范围。结果表明，当丰度比达到至少2:1时，AbundanceBin才能实现良好的分类。当丰度比降至1.5:1时，分类错误率急剧上升。还测试了不同长度的l - 元组，结果显示，当l降至16时，对于两个基因组的情况，分箱性能显著下降。对于超过3个基因组的情况，l增加到20时性能略有改善。因此，后续实验选择l = 20。 ##### 4.2 准确分箱、物种丰度和基因组大小估计 AbundanceBin在多个短读数模拟数据集上实现了准确的物种丰度估计和读数分配到不同丰度分箱的操作。对于从两个基因组采样的400 bp和75 bp读数，分类错误率分别为0.10%和0.64%。从多个基因组采样的读数分类错误率略高于两个基因组的情况，但AbundanceBin仍能正确分类高丰度物种的读数。此外，AbundanceBin能够对短至75个碱基的读数进行分箱，且具有合理的分类错误率。它还能估计每个分箱的基因组大小，在大多数测试案例中，估计的基因组大小与实际值非常接近。对于密切相关的物种，AbundanceBin也能以很低的错误率将其读数正确分箱，但无法将同一物种的不同菌株的读数分开。以下是部分测试结果的表格： | ID | Spe | Len | 总读数 | 分箱 | 丰度（真实） | 丰度（预测） | 基因组大小（真实） | 基因组大小（预测） | 错误率(%) | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | A | 2 | 400 bp | 50,000 | 1 | 27.23 | 26.27 | 580,076 | 570,859 | 0.10 (0.20) | | A | 2 | 400 bp | 50,000 | 2 | 6.83 | 6.49 | 615,980 | 614,605 | - | | B | 3 | 400 bp | 50,000 | 1 | 24.64 |

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

一种基于丰度的宏基因组序列分箱新算法

相关推荐

专栏目录

一种基于丰度的宏基因组序列分箱新算法

相关推荐

DMS算法基于物种水平的生物分类学和系统发育信息对宏基因组进行全面比较1

George-Mason-University-Internship:宏基因组学研究

一种估计消息RNA表达水平的聚类算法

基于多任务学习和丰度算法的基因组序列分析新进展

recentrifuge: 交互式宏基因组学的离心机新应用

mokka：元基因组序列注释工具的介绍与应用

宏基因组学读物的高效映射技术研究

SIGMA: 开源工具实现宏基因组菌株水平的精确诊断

NCycDB数据库应用前沿：宏基因组学新发现与方法探索

宏基因组学研究的新方法：MEGAN多组学数据整合策略

MATLAB仿真脚本，从理论上证明了具有波束控制和整形功能的相控阵天线的通用性_MATLAB simulation sc

专栏目录

最新推荐

Rust模块系统与JSON解析：提升代码组织与性能

Rust应用中的日志记录与调试

Rust开发实战：从命令行到Web应用

Rust编程：模块与路径的使用指南

Rust项目构建与部署全解析

iOS开发中的面部识别与机器学习应用

Rust数据处理：HashMaps、迭代器与高阶函数的高效运用

AWS无服务器服务深度解析与实操指南

并发编程中的锁与条件变量优化

React应用性能优化与测试指南