什么是 C4.5C4.5C4.5 算法?
C4.5C4.5C4.5 算法是基于 ID3ID3ID3 算法的改良,C4.5C4.5C4.5 算法不直接使用信息增益,而是使用“信息增益率”来选择最优划分属性。
基于 ID3ID3ID3 算法的优化:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
信息增益率
信息增益准则对可取值数目较多的属性有所偏好,然而这样的决策树显然不具有泛化能力,无法对新样本进行有效预测。而 C4.5C4.5C4.5 算法不直接使用信息增益,而是使用“信息增益率”来选择最优划分属性,假定当前样本集合为 DD