蛋白质组覆盖度预测与调控重叠RNA转录本发现
立即解锁
发布时间: 2025-08-30 01:17:22 阅读量: 12 订阅数: 33 AIGC 

### 蛋白质组覆盖度预测与调控重叠RNA转录本发现
#### 蛋白质组覆盖度预测
在蛋白质组学研究中,准确预测蛋白质组覆盖度对于实验设计和结果评估至关重要。这里介绍一种用于综合蛋白质组学数据集的蛋白质组覆盖度预测方法。
##### 嵌套递归中餐厅构建
嵌套递归的中餐厅构建用于模拟进一步的实验,即在已观察到一系列肽段的情况下,对更多肽段进行采样。这对于后续推导用于参数估计的似然函数非常有用。
##### 经验贝叶斯参数估计
通过经验贝叶斯推断,可以从一系列鉴定结果中估计分层过程模型的参数。具体步骤如下:
1. 定义似然函数 \(L_{\hat{R}}\):
- 对于一组座位安排 \(R\) 或相应的鉴定系列 \(\pi\),似然函数 \(L_R(\theta)\) 定义为:
\[L_R(\theta) = L_{cr}(R_r, \gamma_r, d_r) \cdot \prod_{i=1}^{I} L_{cr}(R_{a_i}, \gamma_{i_a}) \cdot \prod_{j=1}^{J} L_{cr}(R_{c_{ij}}, \gamma_{i_c})\]
- 其中 \(L_{cr}(R, \gamma, d)/L_{cr}(R, \gamma)\) 对应于在具有参数 \(\gamma, d/\gamma\) 的 Pitman - Yor/Dirichlet 过程样本的单个餐厅表示中实现座位安排 \(R\) 的似然。
- \(L_{cr}(R, \gamma, d)\) 的计算公式为:
\[L_{cr}(R, \gamma, d) = \frac{\prod_{k=1}^{K}(\gamma + kd) \cdot \prod_{n=1}^{n_k}(n - d)}{\prod_{n=1}^{N}(n + \gamma)}\]
- 这里 \(N = \sum_{k=1}^{K} n_k\),\(K\) 对应于有人坐的桌子数量。
2. 估计隐藏的座位安排:
- 虽然我们观察到了鉴定系列 \(\pi\),但对 \(R\) 的了解并不完整。我们可以观察到子过程的座位安排 \(R_{c_{ij}}\),但不能直接观察到 \(R_r\) 和 \(R_{a_i}\)。
- 我们通过贪婪启发式算法计算 \(f_k\),以估计隐藏的座位安排。每次发现肽段 \(k\) 时,选择相应的适配器过程在 \(f_k\) 中触发采样事件。
- 估计适配器和根餐厅表示的隐藏座位安排:
\[n_{a_{ii'}} = \left|\left\{i, j, k : (f_k = i') \land (\exists t : (\pi_{i_{t - 1}} = j) \land (\pi_{i_t} = k))\right\}\right|\]
\[n_{r_k} = \left|\left\{i, j, k : (f_k = i) \land (\exists t : (\pi_{i_{t - 1}} = j) \land (\pi_{i_t} = k))\right\}\right|\]
3. 确定参数 \(\hat{\theta}\):
- 最后,使用拟牛顿法优化 \(L_{\hat{R}}\) 来确定参数 \(\hat{\theta}\)。
##### 考虑假鉴定的蛋白质组覆盖度预测
预测未来实验中新肽段发现数量的步骤如下:
1. 估计分层过程模型的参数和隐藏变量。
2. 通过嵌套中餐厅构建采样 \(m\) 个肽段系列 \((\pi_{new, i})_{i = 1}^{m}\)。
3. 对于每个 \(\pi_{new, i}
0
0
复制全文
相关推荐









