educoder 决策树

最新推荐文章于 2023-02-25 13:38:15 发布

木右加木

最新推荐文章于 2023-02-25 13:38:15 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： educoder 文章标签：决策树 python 机器学习

本文链接：https://blog.csdn.net/VDingLinlin/article/details/121158975

这篇博客介绍了决策树的基本概念，包括信息熵和信息增益，并通过实例讲解了如何使用ID3算法构建决策树。同时，文章探讨了决策树的预剪枝和后剪枝策略，最后讨论了在Python的sklearn库中如何应用决策树。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第1关：什么是决策树

1.AB
2.B

第2关：信息熵与信息增益

import numpy as np


def calcInfoGain(feature, label, index):
    '''
    计算信息增益
    :param feature:测试用例中字典里的feature，类型为ndarray
    :param label:测试用例中字典里的label，类型为ndarray
    :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
    :return:信息增益，类型float
    '''

    #*********** Begin ***********#

    # 计算熵
    def calcInfoEntropy(feature, label):
        '''
        计算信息熵
        :param feature:数据集中的特征，类型为ndarray
        :param label:数据集中的标签，类型为ndarray
        :return:信息熵，类型float
        '''

        label_set = set(label)
        result = 0
        for l in label_set:
            count = 0
            for j in range(len(label)):
                if label[j] == l:
                    count += 1
            # 计算标签在数据集中出现的概率
            p = count / len(label)
            # 计算熵
            result -= p * np.log2(p)
        return result

    # 计算条件熵
    def calcHDA(feature, label, index, value):
        '''
        计算信息熵
        :param feature:数据集中的特征，类型为ndarray
        :param label:数据集中的标签，类型为ndarray
        :param index:需要使用的特征列索引，类型为int
        :param value:index所表示的特征列中需要考察的特征值，类型为int
        :return:信息熵，类型float
        '''
        count = 0
        # sub_feature和sub_label表示根据特征列和特征值分割出的子数据集中的特征和标签
        sub_feature = []
        sub_label = []
        for i in range(len(feature)):
            if feature[i][index] == value:
                count += 1
                sub_feature.append(feature[i])
                sub_label.append(label[i])
        pHA = count / len(feature)
        e = calcInfoEntropy(sub_feature, sub_label)
        return pHA * e

    base_e = calcInfoEntropy