蛋白质序列比较中的Dayhoff、Henikoffs和LLA矩阵
立即解锁
发布时间: 2025-08-23 02:06:46 阅读量: 3 订阅数: 14 


组合与统计数据分析及聚类的基础与方法
# 蛋白质序列比较中的Dayhoff、Henikoffs和LLA矩阵
## 1. 引言
在蛋白质序列比较领域,有多种矩阵被用于衡量氨基酸之间的相似性和替代程度,如Dayhoff矩阵、Henikoffs矩阵和LLA矩阵。这些矩阵在蛋白质序列分析、分类和聚类等方面具有重要作用。本文将详细介绍这些矩阵的原理、计算方法以及如何利用它们构建蛋白质序列之间的相似性指标。
## 2. Henikoffs矩阵与Dayhoff矩阵的比较
### 2.1 Henikoffs矩阵的计算
考虑一个由单一蛋白质序列家族提供的对齐序列集合S。Henikoffs矩阵是基于无序序列对集合P2(S)进行计数得到的。
设整数表{Aij|1 ≤ j ≤ i ≤ 20},其中Aij是在整个集合P2(S)中氨基酸Zi和Zj面对面出现的位点数量,即:
\[A_{ij}=\sum_{\{s,s'\}\in P_2(S)}A_{ij}(\{s, s'\}), 1\leq j\leq i\leq 20\]
经验概率Qij为:
\[Q_{ij}=\frac{A_{ij}}{\sum_{1\leq j'\leq i'\leq 20}A_{i'j'}}, 1\leq j\leq i\leq 20\]
分母值为LK(K - 1)/2,其中L是S序列的公共长度,K是序列数量。
### 2.2 相关概率计算
在独立性假设下,两个事件的概率分别为:
\[E_{ij} = 2f_if_j (1\leq i\neq j\leq 20)\]
\[E_{ii} = f_i^2 (1\leq i\leq 20)\]
其中,fi可以表示为:
\[f_i = Q_{ii}+\frac{1}{2}\sum_{\{j| j\neq i\}}Q_{ij}, 1\leq i\leq 20\]
引入概率密度rij:
\[r_{ij}=\frac{Q_{ij}}{E_{ij}}, 1\leq i, j\leq 20\]
取以2为底的对数:
\[s_{ij}=\log_2(r_{ij}), 1\leq i, j\leq 20\]
Henikoffs矩阵H定义为:
\[H = \{h_{ij} = 2s_{ij}|1\leq i\leq j\leq 20\}\]
### 2.3 与Dayhoff矩阵的概念差异
- **全局持久性概率**:在Henikoffs矩阵中,观察到的持久性经验概率形式为\(\sum_{1\leq i\leq 20}Q_{ii}\);而在Dayhoff矩阵中,该概率被设定为0.99,即\(\sum_{1\leq i\leq 20}O_{ii}=\sum_{1\leq i\leq 20}f_iM_{ii}=0.99\)。
- **发生概率矩阵**:Dayhoff矩阵的发生概率矩阵{Oij|1 ≤ i ≤ j ≤ 20}是从转移矩阵和经验分布推导得出的;而Henikoffs矩阵的发生概率矩阵{Qij|1 ≤ i ≤ j ≤ 20}是直接从学习集S计算得到的。
### 2.4 数据分解与加权
如果集合S可以分解为B个块:
\[S=\sum_{1\leq b\leq B}S_b\]
且不同块的大小过于不均,每个块由高度同源的蛋白质序列组成,直接计算Qij可能会在生物学意义上产生偏差。此时,采用Henikoffs提出的最近邻类型的连续链接算法进行分解。
对于分解后的情况,(11.4.54)将被替换为:
\[A_{ij}=\sum_{1\leq b < b'\leq B}A_{ij}(b, b')\]
其中:
\[A_{ij}(b, b')=\frac{1}{k_bk_{b'}}\sum_{(s,s')\in S_b\times S_{b'}}A_{ij}(s, s')\]
kb = card(Sb),kb′ = card(Sb′),1 ≤ b < b′ ≤ B。
### 2.5 系数计算
与sij分布相关的两个系数:
- **相对熵H**:
\[H=\sum_{1\leq i\leq j\leq 20}Q_{ij}\]
- **系数E**:
\[E=\sum_{1\leq i,j\leq 20}f_if_js_{ij}\]
其中sij = sji,1 ≤ i ≠ j ≤ 20。这两个系数用于比较BLOSUM和Dayhoff矩阵,但相对熵H过于全局,在精确比较方面不够精确。
## 3. LLA矩阵
### 3.1 构建元素
建立20种氨基酸集合上的LLA矩阵需要联合经验分布(11.4.66)或(11.4.69)以及边际分布(11.4.67)。
### 3.2 关联系数
关联系数ρij的计算基于布尔属性之间的关联,其相关形式为:
\[\rho_{ij}=\frac{f(i\wedge j)-f_ig_j}{f_ig_j}\]
其中,f(i ∧ j)是对象中属性ai和bj同时存在的比例,fi和gj分别是属性ai和bj存在的比例。
### 3.3 矩阵计算
在氨基酸集合的情况下,关联系数变为:
\[\rho_{ij}=\frac{f(i\wedge j)-f_if_j}{f_if_j}, 1\leq i, j\leq 20\]
将矩阵{ρij|1 ≤ i, j ≤ 20}进行全局归一化,得到矩阵{ρgij|1 ≤ i, j ≤ 20}:
\[\rho_{g_{ij}}=\frac{\rho_{ij}-m_1(\rho)}{\sqrt{var_1(\rho)}}, 1\leq i, j\leq 20\]
其中:
\[m_1(\rho)=\sum_{1\leq i,j\leq 20}f
0
0
复制全文
相关推荐







