机器学习实战--决策树

决策树算法——实现熵与信息增益选择最优特征

图片均来源于网络,联系侵删!

1、熵、条件熵与信息增益

熵(entropy) 

条件熵(conditional entropy) 

信息增益(information gain)

信息增益算法实现流程

2、实例

å¨è¿éæå¥å¾çæè¿°

 

数学计算过程:

 

Python代码实现过程:

先对数据集进行属性标注。

  • 年龄:0代表青年,1代表中年,2代表老年;
  • 有工作:0代表否,1代表是;
  • 有自己的房子:0代表否,1代表是;
  • 信贷情况:0代表一般,1代表好,2代表非常好;
  • 类别(是否给贷款):no代表否,yes代表是。
# -*- coding: UTF-8 -*-
from math import log
 
 
"""
函数说明:创建测试数据集
"""
def createDataSet():
    dataSet = [[0, 0, 0, 0, 'no'],         #数据集
               [0, 0, 0, 1, 'no'],
               [0, 1, 0, 1, 'yes'],
               [0, 1, 1, 0, 'yes'],
               [0, 0, 0, 0, 'no'],
               [1, 0, 0, 0, 'no'],
               [1, 0, 0, 1, 'no'],
               [1, 1, 1, 1, 'yes'],
               [1, 0, 1, 2, 'yes'],
               [1, 0, 1, 2, 'yes'],
               [2, 0, 1, 2, 'yes'],
               [2, 0, 1, 1, 'yes'],
               [2, 1, 0, 1, 'yes'],
               [2, 1, 0, 2, 'yes'],
               [2, 0, 0, 0, 'no']]
    labels = ['年龄', '有工作', '有自己的房子', '信贷情况']        #分类属性
    return dataSet, labels                           #返回数据集和分类属性
 
 
"""
函数说明:计算给定数据集的经验熵(香农熵)
Parameters:
    dataSet - 数据集
Returns:
    shannonEnt - 经验熵(香农熵)
"""
def calcShannonEnt(dataSet):
    numEntires = len(dataSet)                        #返回数据集的行数
    labelCounts = {}                                 #保存每个标签(Label)出现次数的字典
    for featVec in dataSet:                          #对每组特征向量进行统计
        currentLabel = featVec[-1]                   #提取标签(Label)信息
        if currentLabel not in labelCounts.keys():   #如果标签(Label)没有放入统计次数的字典,添加进去
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1               #Label计数
    shannonEnt = 0.0                                 #经验熵(香农熵)
    for key in labelCounts:                          #计算香农熵
        prob = float(labelCounts[key]) / numEntires  #选择该标签(Label)的概率
        shannonEnt -= prob * log(prob, 2)            #利用公式计算
    return shannonEnt                                #返回经验熵(香农熵)
 
 
"""
函数说明:按照给定特征划分数据集
Parameters:
    dataSet - 待划分的数据集
    axis - 划分数据集的特征
    value - 需要返回的特征的值
"""
def splitDataSet(dataSet, axis, value):
    retDataSet = []                                     #创建返回的数据集列表
    for featVec in dataSet:                             #遍历数据集
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]             #去掉axis特征
            reducedFeatVec.extend(featVec[axis+1:])     #将符合条件的添加到返回的数据集
            retDataSet.append(reducedFeatVec)
    return retDataSet                                   #返回划分后的数据集
 
 
"""
函数说明:选择最优特征
Parameters:
    dataSet - 数据集
Returns:
    bestFeature - 信息增益最大的(最优)特征的索引值
"""
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1                     #特征数量
    baseEntropy = calcShannonEnt(dataSet)                 #计算数据集的香农熵
    bestInfoGain = 0.0                                    #信息增益
    bestFeature = -1                                      #最优特征的索引值
    for i in range(numFeatures):                          #遍历所有特征
        #获取dataSet的第i个所有特征
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)                         #创建set集合{},元素不可重复
        newEntropy = 0.0                                   #经验条件熵
        for value in uniqueVals:                           #计算信息增益
            subDataSet = splitDataSet(dataSet, i, value)           #subDataSet划分后的子集
            prob = len(subDataSet) / float(len(dataSet))           #计算子集的概率
            newEntropy += prob * calcShannonEnt(subDataSet)        #根据公式计算经验条件熵
        infoGain = baseEntropy - newEntropy                        #信息增益
        print("第%d个特征的增益为%.3f" % (i, infoGain))             #打印每个特征的信息增益
        if (infoGain > bestInfoGain):                              #计算信息增益
            bestInfoGain = infoGain                                #更新信息增益,找到最大的信息增益
            bestFeature = i                                        #记录信息增益最大的特征的索引值
    return bestFeature                                             #返回信息增益最大的特征的索引值
 
 
if __name__ == '__main__':
    dataSet, features = createDataSet()
    entropy=calcShannonEnt(dataSet)
    bestfeature=chooseBestFeatureToSplit(dataSet)
    print("训练集的熵为:%f"%(entropy))
    print("最优特征索引值:" + str(bestfeature))

输出结果:

最优特征索引值是2,代表特征3(即A3,房子)是最优特征。

对比数学计算结果和代码计算结果,是同样的结果。

 

### 头歌平台中的决策树教程实例 头歌(Tougo)是一个专注于在线教育和技术实践的平台,提供了丰富的机器学习课程资源。以下是基于已知资料整理的内容,帮助理解头歌平台上可能涉及的决策树相关教学内容。 #### 决策树的基础概念 决策树是一种监督学习方法,广泛应用于分类和回归问题中。它通过一系列规则对数据进行分割,形成一棵树状结构[^1]。 - **节点**:表示特征或属性的选择点。 - **边**:代表从某个节点到其子节点的路径。 - **叶节点**:最终的预测结果所在位置。 #### 构建决策树的核心原理 构建决策树的关键在于选择最优的分裂准则,常见的指标包括信息熵、信息增益、信息增益率以及基尼指数[^2]。这些指标用于衡量某一特征对于目标变量的区分能力。 ##### 信息熵 信息熵是度量随机事件不确定性的指标,定义如下: \[ H(D) = - \sum_{k=1}^{K} p_k \log_2(p_k) \] 其中 \(p_k\) 表示类别 \(k\) 的概率分布。 ##### 条件熵与信息增益 条件熵描述了给定某些条件下剩余的信息不确定性,而信息增益则是原始熵减去条件熵的结果。ID3 算法利用信息增益作为分裂依据。 ```python import math def entropy(probabilities): """ 计算信息熵 """ return -sum([p * math.log2(p) for p in probabilities if p != 0]) # 示例计算 probs = [5/14, 4/14, 5/14] # outlook 取值的概率分布 print(f"Entropy: {entropy(probs)}") # 输出熵值 ``` ##### 基尼指数 CART 算法采用基尼指数来评估特征的重要性,其公式为: \[ Gini(D) = 1 - \sum_{k=1}^{K} (p_k)^2 \] #### 预剪枝与后剪枝技术 为了防止过拟合,决策树通常会应用剪枝策略。预剪枝主要通过对模型参数设置约束实现,例如限制最大深度或最小样本数量;而后剪枝则是在完全生长后再移除不必要的分支。 #### 实战案例分析 假设我们有一组天气数据集,记录了不同气象条件下的活动情况。可以按照以下步骤完成决策树的学习过程: 1. 数据准备阶段:加载并清洗数据; 2. 划分训练集与测试集; 3. 使用 Scikit-Learn 库建立决策树模型; 4. 调整超参数优化性能; 5. 对新输入做出预测。 ```python from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 创建虚拟数据集 X = [['sunny', 'hot'], ['overcast', 'mild'], ['rainy', 'cool']] Y = ['no', 'yes', 'yes'] # 将字符串转换成数值编码... clf = DecisionTreeClassifier(criterion='gini') clf.fit(X_train, y_train) predictions = clf.predict(X_test) accuracy = accuracy_score(y_test, predictions) print(f'Accuracy: {accuracy}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值