宏基因组中的病毒组分析(2)checkV评估病毒基因组的质量

得到病毒contig后(具体方法查看以往文章,宏基因组中的病毒组分析(1)病毒序列的鉴定geNomad-CSDN博客)使用 CheckV 进一步处理预测的病毒序列,以评估病毒基因组的质量。

1、工作原理

CheckV 是一个完全自动化的命令行工具,主要用于评估单重叠群(contig)病毒基因组的质量,包括识别整合原病毒中的宿主污染、估计基因组片段的完整性以及识别封闭基因组。其工作原理可以概括为以下几个主要步骤:

  1. 去除宿主污染
    • CheckV 首先通过与自定义的隐马尔可夫模型(HMM)数据库进行比较,将基因注释为病毒或细菌。
    • 接着,它扫描重叠群(从5'到3'),比较相邻开放阅读框(ORF)之间的基因注释和GC含量,以计算每个基因间位置的分数,并识别宿主-病毒断点。
    • 通过高分(>1.2)和特定基因数量(如宿主区域中至少2个宿主特异性基因,病毒区域中至少2个病毒特异性基因)来判定并去除宿主污染。
  2. 估计基因组完整性
    • CheckV 使用两种算法来估计基因组的完整性:基于平均氨基酸同一性(AAI)的方法和基于HMM的方法。
    • AAI 方法通过将蛋白质与CheckV基因组数据库中的参考基因组进行比较,计算重叠群长度与匹配的参考基因组长度之间的比率来估计完整性。
    • HMM 方法则识别重叠群上的病毒HMM,并与共享相同HMM的参考基因组长度进行比较,给出完整性的估计范围。
  3. 预测封闭基因组
    • CheckV 通过识别直接末端重复(DTR)、原噬菌体(原病毒)边界和反向末端重复(ITR)等特征来预测封闭基因组。
    • 这些特征如DTR(在contig的开始/结束处重复序列>20-bp)和ITR(在contig的起始/末端重复>20-bp的序列,但3'重复被倒置)用于确认环状或线性基因组的完整性。
  4. 总结质量
    • 根据上述步骤的结果,CheckV 生成报告文件,并将查询重叠群分配到五个质量层之一(如完整、高质量、中等质量、低质量和质量未定)。
    <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming314!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值