基于决策树的分类预测

这篇博客介绍了如何使用决策树进行分类预测,重点在企鹅数据集的应用。首先,讲解了决策树的理论,包括伪代码和划分选择。然后,通过实际操作展示了如何导入库、处理缺失值、数据可视化,并利用决策树模型分别进行二分类和三分类的训练与预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据及背景

link
基于决策树的分类预测

学习目标

了解 决策树 的理论
掌握 决策树 的 sklearn 函数调用使用并将其运用到企鹅分类

理论知识

1、决策树的伪代码

在这里插入图片描述
决策树的构建过程是一个递归过程。函数存在三种返回状态:
(1)当前节点包含的样本全部属于同一类别,无需继续划分;
(2)当前属性集为空或者所有样本在某个属性上的取值相同,无法继续划分;
(3)当前节点包含的样本集合为空,无法划分。

2、划分选择

从上述伪代码中我们发现,决策树的关键在于line6.从A中选择最优划分属性a∗​,一般我们希望决策树每次划分节点中包含的样本尽量属于同一类别,也就是节点的“纯度”更高。

实践操作

1、项目要求

本次我们选择企鹅数据(palmerpenguins)进行方法的尝试训练,该数据集一共包含8个变量,其中7个特征变量,1个目标分类变量。共有150个样本,目标变量为 企鹅的类别 其都属于企鹅类的三个亚属,分别是(Adélie, Chinstrap and Gentoo)。包含的三种种企鹅的七个特征,分别是所在岛屿,嘴巴长度,嘴巴深度,脚蹼长度,身体体积,性别以及年龄。
在这里插入图片描述

2、函数库导入

##基础函数库
import numpy as np
import pandas as pd
##绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

3、数据读取/载入

## 我们利用Pandas自带的read_csv函数读取并转化为DataFrame格式

data = pd.read_csv('datalab/531811/Datawhale/penguins_raw.csv')
## 为了方便我们仅选取四个简单的特征
data = data[['Species','Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]

4、数据信息简单查看

## 利用.info()查看数据的整体信息
data.info()
##进行简单的数据查看,我们可以利用.head()头部.tail()尾部
data.head()
data = data.fillna(-1)
data.tail()

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里我们发现数据集中存在NaN,一般的我们认为NaN在数据集中代表了缺失值,可能是数据采集或处理时产生的一种错误。这里我们采用-1将缺失值进行填补,还有其他例如“中位数填补、平均数填补”的缺失值处理方法

## 其对应的类别标签为'Adelie Penguin', 'Gentoo penguin', 'Chinstrap penguin'三种不同企鹅的类别。
data['Species'].unique() #unique函数去除其中重复的元素,并按元素由大到小返回一个新的无元素重复的元组或者列表

在这里插入图片描述

## 利用value_counts函数查看每个类别数量
pd.Series(data['Species']).value_counts()

在这里插入图片描述

## 对于特征进行一些统计描述
data.describe()

在这里插入图片描述

5、可视化描述

## 特征与标签组合的散点可视化
sns.pairplot(data=data, diag_kind='hist', hue= 'Species')
plt.show()

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值