一种基于丰度的宏基因组序列分箱新算法
立即解锁
发布时间: 2025-08-30 01:17:31 阅读量: 10 订阅数: 32 AIGC 

### 一种基于丰度的宏基因组序列分箱新算法
#### 1. 自动确定分箱总数
在EM算法中,需要输入分箱数量来确定混合泊松分布的参数。然而,在大多数宏基因组项目中,这个数量通常是未知的。因此,采用了递归分箱方法来自动确定分箱总数。
递归分箱方法是一种自上而下的方法,它先将数据集分成两个分箱,然后进一步拆分分箱。该方法的灵感来源于观察到来自高丰度基因组的读数比低丰度的读数更容易分类。递归过程会在以下三个条件满足时继续:
1. 两个分箱的预测丰度值差异显著,即 $|\lambda_i - \lambda_j| / \min(\lambda_i, \lambda_j) \geq 1/2$。
2. 预测的基因组大小大于某个阈值(目前设定为400,000,考虑到目前发现的最小生物体基因组约为500,000 bp)。
3. 每个分箱相关的读数数量大于父分箱中分类的总读数数量的某个阈值比例(3%)。
#### 2. 性能评估
将分类错误率定义为错误分类的读数数量除以总读数数量。为了评估分箱方法的性能,考虑使用标准错误率,而不是归一化错误率,因为AbundanceBin利用了不同物种的丰度信息。为了进行比较,也提供了归一化分类错误率。
#### 3. 宏基因组数据集
使用MetaSim生成具有不同丰度物种读数的合成宏基因组数据集。MetaSim以一组已知的基因组序列和丰度概况作为输入,该概况决定了模拟数据集中每个基因组序列的相对丰度。MetaSim定义的“Exact”概况用于生成无测序错误的读数,“454”概况用于生成具有454错误模型的读数。读数的数量以及读数长度的均值和方差会相应调整:
- 平均400 bp时,均值设为400,方差设为50。
- 75 bp时,均值和方差分别设为75和5。
其他设置保持默认。用于生成合成宏基因组数据集的基因组,以及AMD宏基因组序列及其支架均从NCBI下载。
#### 4. 实验结果
##### 4.1 丰度差异和l - 元组长度测试
进行了一系列实验来测试准确分箱读数所需的物种丰度范围。结果表明,当丰度比达到至少2:1时,AbundanceBin才能实现良好的分类。当丰度比降至1.5:1时,分类错误率急剧上升。
还测试了不同长度的l - 元组,结果显示,当l降至16时,对于两个基因组的情况,分箱性能显著下降。对于超过3个基因组的情况,l增加到20时性能略有改善。因此,后续实验选择l = 20。
##### 4.2 准确分箱、物种丰度和基因组大小估计
AbundanceBin在多个短读数模拟数据集上实现了准确的物种丰度估计和读数分配到不同丰度分箱的操作。对于从两个基因组采样的400 bp和75 bp读数,分类错误率分别为0.10%和0.64%。从多个基因组采样的读数分类错误率略高于两个基因组的情况,但AbundanceBin仍能正确分类高丰度物种的读数。
此外,AbundanceBin能够对短至75个碱基的读数进行分箱,且具有合理的分类错误率。它还能估计每个分箱的基因组大小,在大多数测试案例中,估计的基因组大小与实际值非常接近。对于密切相关的物种,AbundanceBin也能以很低的错误率将其读数正确分箱,但无法将同一物种的不同菌株的读数分开。
以下是部分测试结果的表格:
| ID | Spe | Len | 总读数 | 分箱 | 丰度(真实) | 丰度(预测) | 基因组大小(真实) | 基因组大小(预测) | 错误率(%) |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| A | 2 | 400 bp | 50,000 | 1 | 27.23 | 26.27 | 580,076 | 570,859 | 0.10 (0.20) |
| A | 2 | 400 bp | 50,000 | 2 | 6.83 | 6.49 | 615,980 | 614,605 | - |
| B | 3 | 400 bp | 50,000 | 1 | 24.64 |
0
0
复制全文
相关推荐









