得到病毒contig后(具体方法查看以往文章,宏基因组中的病毒组分析(1)病毒序列的鉴定geNomad-CSDN博客)使用 CheckV 进一步处理预测的病毒序列,以评估病毒基因组的质量。
1、工作原理
CheckV 是一个完全自动化的命令行工具,主要用于评估单重叠群(contig)病毒基因组的质量,包括识别整合原病毒中的宿主污染、估计基因组片段的完整性以及识别封闭基因组。其工作原理可以概括为以下几个主要步骤:
- 去除宿主污染:
- CheckV 首先通过与自定义的隐马尔可夫模型(HMM)数据库进行比较,将基因注释为病毒或细菌。
- 接着,它扫描重叠群(从5'到3'),比较相邻开放阅读框(ORF)之间的基因注释和GC含量,以计算每个基因间位置的分数,并识别宿主-病毒断点。
- 通过高分(>1.2)和特定基因数量(如宿主区域中至少2个宿主特异性基因,病毒区域中至少2个病毒特异性基因)来判定并去除宿主污染。
- 估计基因组完整性:
- CheckV 使用两种算法来估计基因组的完整性:基于平均氨基酸同一性(AAI)的方法和基于HMM的方法。
- AAI 方法通过将蛋白质与CheckV基因组数据库中的参考基因组进行比较,计算重叠群长度与匹配的参考基因组长度之间的比率来估计完整性。
- HMM 方法则识别重叠群上的病毒HMM,并与共享相同HMM的参考基因组长度进行比较,给出完整性的估计范围。
- 预测封闭基因组:
- CheckV 通过识别直接末端重复(DTR)、原噬菌体(原病毒)边界和反向末端重复(ITR)等特征来预测封闭基因组。
- 这些特征如DTR(在contig的开始/结束处重复序列>20-bp)和ITR(在contig的起始/末端重复>20-bp的序列,但3'重复被倒置)用于确认环状或线性基因组的完整性。
- 总结质量:
- 根据上述步骤的结果,CheckV 生成报告文件,并将查询重叠群分配到五个质量层之一(如完整、高质量、中等质量、低质量和质量未定)。