机器学习中的分类与贡献评估方法
立即解锁
发布时间: 2025-08-23 00:43:52 阅读量: 5 订阅数: 14 


数据库与专家系统应用进展
# 机器学习中的分类与贡献评估方法
## 1. MMEnsemble方法介绍
### 1.1 实例分类难度评估
对于第 $i$ 个实例,可得到正确分类该实例的基分类器数量 $T_i$,即 $T_i = |\{C_j|C_j \in C, C_j.predict(d_i) = \ell_i\}|$。这个数量反映了实例分类的难易程度,其值越低,若某个基分类器能正确分类该实例,则赋予它的权重越大。具体权重计算公式如下:
$$
W_{asset}(r) = \frac{1}{\sum_{r \in R} W_{asset}(r)} \cdot \prod_{(d_i,\ell_i) \in D(val)} \delta (C_r.predict(d_i), \ell_i) \cdot T_i^{-k}
$$
其中,$k$ 是可调参数,用于强调那些能正确分类其他分类器无法分类实例的分类器的重要性;$\delta$ 函数是克罗内克 delta 函数(若两个参数相等则为 1,否则为 0)。
### 1.2 实验评估设置
#### 1.2.1 数据集
实验数据集来自 OpenML 数据集和 KEEL 仓库,相关信息如下表所示:
| ID | Name | #records | #minor | #dim | IR |
| --- | --- | --- | --- | --- | --- |
| D1 | cm1 | 498 | 49 | 21 | 9.2 |
| D2 | kc3 | 458 | 43 | 39 | 9.7 |
| D3 | mw1 | 403 | 31 | 37 | 12.0 |
| D4 | pc1 | 1,109 | 77 | 21 | 13.4 |
| D5 | pc3 | 1,563 | 160 | 37 | 8.8 |
| D6 | pc4 | 1,458 | 178 | 37 | 7.2 |
| D7 | yeast1 - 7 | 459 | 30 | 7 | 14.3 |
| D8 | abalone9 - 18 | 731 | 42 | 8 | 16.4 |
| D9 | yeast6 | 1,484 | 35 | 8 | 41.4 |
| D10 | abalone19 | 4,174 | 32 | 8 | 129.4 |
| D11 | wine3 - 5 | 691 | 10 | 11 | 68.1 |
| D12 | abalone20 | 1,916 | 26 | 8 | 72.7 |
#### 1.2.2 评估指标
评估指标包括 Recall、Gmean、F2 和 AUC,具体计算公式如下:
- Recall:$Recall = \frac{TP}{TP + FN}$,衡量正(少数)实例被正确分类的比例。
- Gmean:$Gmean = \sqrt{Recall \cdot TNR}$,是两类召回率的几何平均值,其中 $TNR = \frac{TN}{TN + FP}$。
- Fβ:$F_{\beta} = \frac{(1 + \beta^2)Recall \cdot Precision}{Recall + \beta^2Precision}$,是召回率和精确率的调和平均值,其中 $Precision = \frac{TP}{TP + FP}$,本实验中 $\beta$ 设为 2。
- AUC:是接收者操作特征曲线下的面积。
为准确估计这些评估指标值,实验过程重复 50 次。每次将数据集随机分为 70% 用于训练,30% 用于测试,在训练集上训练分类器,并使用测试集进行评估,最终的指标得分是 50 次试验的宏观平均值。
#### 1.2.3 基线方法
MMEnsemble 与以下最先进的方法进行比较:
- IML:一种最先进的度量学习方法,可处理类别不平衡问题,结合了 LMNN 并迭代选择训练样本以改进数据转换。
- DDAE:一种最先进的欠采样和集成方法,也包含度量学习。
- EasyEnsemble:基于欠采样的集成方法。
- MUEnsemble:基于多比例欠采样的集成方法。
- MLEnsemble:结合了度量学习的 EasyEnsemble 方法。
各方法的参数设置如下:
- EasyEnsemble 和 MLEnsemble 的采样比例设为 1.0,度量学习方法为 LMNN,kNN 的 $k$ 参数设为 3。
- MUEnsemble 的预定义采样比例集合 $R$ 设为 $\{0.2, 0.4, \ldots, 2.0\}$,使用高斯加权,参数 $\mu$ 和 $\sigma^2$ 分别为 1.0 和 0.2,其中 $\mu$ 固定为 1.0,$\sigma^2$ 从 $\{0.1, 0.2, \ldots, 1.0\}$ 中实验探索最佳值。
- MMEnsemble 的基分类器 MLEnsemble 设置与上述相同,$R$ 与 MUEnsemble 相同,基于资产的加权参数 $k$ 从 $\{0.1, 0.2, \ldots, 5.0\}$ 中选择。
### 1.3 实验结果分析
#### 1.3.1 整体比较
MMEnsemble 与 IML 和 DDAE 的比较结果如下表所示:
| Data | IML - Rec | IML - Gm | IML - F2 | IML - AUC | DDAE - Rec | DDAE - Gm | DDAE - F2 | DDAE - AUC | MMEnsemble - Rec | MMEnsemble - Gm | MMEnsemble - F2 | MMEnsemble - AUC |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| D1 |.313 |.520 |.287 |.589 |.813 |.775 |.580 |.776 |.863 |.756 |.546 |.819 |
| D2 |.692 |.805 |.652 |.814 |.846 |.823 |.625 |.823 |.952 |.750 |.534 |.868 |
| D3 |.500 |.635 |.345 |.653 |.750 |.815 |.588 |.817 |.793 |.772 |.528 |.866 |
| D4 |.852 |.657 |.408 |.679 |.963 |.819 |.573 |.830 |.944 |.819 |.548 |.895 |
| D5 |.510 |.578 |.342 |.582 |.735 |.743 |.536 |.744 |.867 |.794 |.598 |.854 |
| D6 |.814 |.725 |.574 |.730 |.932 |.804 |.676 |.813 |.963 |.873 |.748 |.934 |
| D7 |.667 |.716 |.471 |.718 |.833 |.841 |.649 |.841 |.933 |.808 |.512 |.883 |
| D8 |.600 |.709 |.375 |.719 |.700 |.814 |.603 |.824 |.886 |.877 |.650 |.941 |
| D9 |.700 |.798 |.407 |.
0
0
复制全文
相关推荐









