生物信息学中的基因选择与转录模块推断方法
立即解锁
发布时间: 2025-08-21 00:42:44 阅读量: 17 订阅数: 24 


智能计算理论与技术进展
### 生物信息学中的基因选择与转录模块推断方法
在生物信息学领域,基因选择和转录模块推断是两个重要的研究方向。基因选择有助于从大量基因中筛选出与疾病分类相关的关键基因,而转录模块推断则能帮助我们理解基因之间的调控关系。下面将详细介绍两种相关的方法。
#### 1. 基于线性判别分析的递归特征消除(RFELDA)方法
##### 1.1 背景与问题提出
DNA微阵列技术是一项强大的技术,它可以同时监测和测量单个组织样本中数万个基因的表达水平,为基于基因表达的癌症诊断提供了可能。然而,微阵列基因表达数据具有小样本、高通量、噪声、无关和冗余数据等特点,给分类器带来了很大困难。因此,需要一种有效的基因选择策略来选择少量相关基因用于组织样本分类。
##### 1.2 现有技术
- **支持向量机递归特征消除(SVMRFE)**:由Guyon等人提出,其主要思想是利用支持向量机找到的分离超平面的方向来选择信息丰富的基因。
- **FCM - SVM - RFE**:Tang等人提出,先使用模糊C均值将具有相似功能的基因分组到簇中,然后使用RFE - SVM从每个簇中选择最具信息的基因。
- **ISVM - RCE**:Luo等人提出的基于支持向量机的改进簇消除方法,包括聚类、用支持向量机对基因评分和递归消除不相关小簇三个步骤。
- **Lagging Prediction Peephole Optimization(LPPO)**:Liu等人提出,结合监督学习和统计相似性度量来选择最终的最优特征/基因集,处理冗余问题并提高微阵列数据的分类性能。
- **多准则融合的递归特征消除(MCF - RFE)**:Yang等人提出,提高特征选择结果的鲁棒性和稳定性。
##### 1.3 方法步骤
我们提出的RFELDA方法包括以下三个基本步骤:
1. **过滤方法**:使用四种统计过滤器(BSS/WSS (BW)、t - 统计量 (TT)、Wilcoxon - 检验 (WT) 和SNR (SN))来过滤相关基因,每个疾病保留p = 35个信息丰富的基因。
2. **线性判别分析(LDA)**:
- LDA是一种常用的数据分类和降维技术,它根据Fisher准则将数据投影到低维空间,以最大化类间散度矩阵方差$S_B$与类内散度矩阵方差$S_W$的比值。
- 散度矩阵$S_B$和$S_W$的定义如下:
- $S_B=\sum_{c}(\mu_c - \mu)(\mu_c - \mu)^T$
- $S_W=\sum_{c}\sum_{i\in c}(x_{ci}-\mu_c)(x_{ci}-\mu_c)^T$
- 其中,$c$是类别,$\mu$是数据类别的总体均值。$w$是$S_W^{-1}S_B$的唯一特征值对应的特征向量。LDA不仅作为分类方法评估所选基因子集的分类准确性,还利用其特征向量的系数评估每个基因对类别区分的相关性。
3. **RFE - LDA**:
- 具体步骤如下:
1. 给定从过滤器获得的缩减基因集$G = \{g_1, g_2, \ldots, g_p\}$。
2. 训练LDA分类器。
3. 使用验证方法从LDA分类器中获取每个基因的判别系数。
4. 从$G$中消除最不相关的基因$g_i$,更新$G$为$G = \{G - g_i\}$,并将$p$减1。
5. 重复步骤2,直到$p = 1$。
这个递归过程基于SVMRFE策略,每次迭代只移除一个基因,直到获得一个包含最相关基因且性能最高的最终基因子集。
##### 1.4 实验结果
为了评估RFELDA方法的性能,我们在四个DNA微阵列基因表达数据集上进行了广泛实验,数据集信息如下表所示:
| 数据集 | 基因数量 | 样本数量 | 类别1数量 | 类别2数量 |
| ---- | ---- | ---- | ---- | ---- |
| 白血病 | 7129 | 72 | 25 | 47 |
| 结肠癌 | 2000 | 62 | 22 | 40 |
| CNS | 7129 | 60 | 21 | 39 |
| 前列腺癌 | 12600 | 109 | 59 | 77 |
对于白血病数据集,使用10 - 折交叉验证和Bootstrap .632两种验证方法各进行100次实验。结果表明,RFELDABW + 100F
0
0
复制全文
相关推荐









