RNA结构预测:从基础到应用的全面解析
1. RNA结构分析概述
自20世纪60年代以来,RNA二级结构分析已广泛应用于各类RNA,如rRNA和RNA病毒基因组。随后,RNA三维结构分析也逐渐展开。然而,由于RNA结构的不稳定性,与蛋白质相比,检测到的RNA结构数量要少得多。截至2020年,蛋白质数据库(PDB)中仅含RNA的结构有1523个,而仅含蛋白质的结构有151,577个。因此,计算机模拟结构预测成为克服这些限制、全面揭示RNA结构的有力手段。
最常用且高性能的结构预测方法基于热力学模型,该模型以RNA的一级序列为输入,根据结构稳定性预测代表性结构。通过使用短寡核苷酸的熔解温度或数据库中的结构,对每个子结构的自由能变化进行近似估计,以此作为结构稳定性的度量。为了计算基于热力学模型的RNA二级结构概率,需要计算自由能变化指数的总和,公式为:$\sum_{\zeta\in\Omega(x)} e^{\Delta G(\zeta,x)/RT}$,其中$\Delta G(\zeta,x)$是序列$x$和结构$\zeta$的自由能变化,$R$是气体常数,$T$是绝对温度,$\Omega(x)$表示序列$x$的所有可能结构的集合。对于每个可能的子序列$x$的$\Delta G(\zeta,x)$,可以使用动态规划(DP)技术,通过子问题$\Delta G(\zeta,x_0)$(其中$x_0$是$x$的子序列)进行有效计算。计算完完整序列的DP变量后,可以根据正则分布计算配分函数和结构概率。
先前的基准研究对RNA二级和三维预测工具进行了全面评估,结果表明,许多预测方法不仅具有足够高的预测准确性,而且在鲁棒性和性能稳定性方面存在计算限制。