连续属性离散化与数据库关系挖掘算法研究
在数据处理和机器学习领域,连续属性离散化以及数据库关系挖掘是两个重要的研究方向。本文将介绍几种熵基离散化方法的对比,以及一种用于挖掘数据库关系的算法。
熵基离散化方法对比
在学习分类规则时,连续属性的离散化是一个关键步骤。这里对比了三种熵基离散化方法:MDLP、Max - m 和 EDA - DB。
实际数据集结果
以下是几种数据集上不同离散化方法的预测准确率和平均规则数:
| 数据集 | 示例数量 | MDLP 预测准确率 | Max - m 预测准确率 | MDLP 平均规则数 | Max - m 平均规则数 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| bupa | 345 | 86.78% | 22.93% | 4 | 28 |
| german | 1000 | 26.30% | 26.80% | 103 | 100 |
| glass | 214 | 23.14% | 26.23% | 31 | 30 |
| heart | 270 | 61.68% | 62.89% | 46 | 30 |
| iris | 150 | 98.33% | 92.27% | 6 | 3 |
| segment | 2310 | 98.92% | 90.28% | 29 | - |
从这些结果可以看出,不同方法在不同数据集上的表现差异较大。
MDLP 方法的问题
MDLP 方法在训练示例数量较少时停止得过早,无法检测到足够的分割点。这