2024年最新机器学习(二)决策树之儿童入学推荐_上学好处 决策树,2024年最新还在等机会

本文介绍了使用决策树进行儿童入学推荐的预测分析。实验涉及数据集nursery.txt,包括儿童及家庭信息,旨在建立模型预测入学可能性。通过详细步骤展示了如何处理数据、构建训练和测试集,以及使用普通决策树和AdaBoost决策树模型,最后评估模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上软件测试知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化的资料的朋友,可以戳这里获取

推荐入学预测

实验内容

给定一个数据集合nursery.txt。该数据集包含12960个入学儿童的自身及家庭状况以及是否推荐他们入学,目标是找到决策树模型可以将这些数据拟合,从而对是否入学做出预测分析,同时通过计算它的均方误差来评价拟合的好坏。


一、详细步骤

(1) 从这个网址下载nursery.data,然后将修改扩展名,将其修改成Python容易处理的nursery.txt文件
(2) 导入相关的包
(3) 读取数据,加载到numpy数组中
(4) 对数据进行标记编码
(5) 将数据分为训练集和测试集
(6) 使用训练集拟合普通的决策树模型和AdaBoost的决策树模型
(7) 将测试数据代入训练好的两个模型,得到用标记编码表示的测试结果
(8) 将测试结果反标记编码,转换为原来的字符串形式
(9) 通过计算均方误差和可释方差分数评估两个模型的拟合效果

二、实现代码

import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.metrics import mean_squared_error,explained_variance_score
from sklearn import preprocessing


if __name__ == '\_\_main\_\_':
    input_file = 'nursery.txt'

    # 读取数据
    schooling_data = []
    y = []
    count = 0
    with open(input_file, 'r') as f:
        for line in f.readlines():
            data = line[:-1].split(',')
            schooling_data.append(data)

    schooling_data = np.array(schooling_data)

    # 对数据进行标记编码
    label_encoder = []
    X_encoded = np.empty(schooling_data.shape)

    for i,item in enumerate(schooling_data[0]):
        label_encoder.append(preprocessing.LabelEncoder())
        X_encoded[:, i] = label_encoder[-1].fit_transform(schooling_data[:, i])

    X = X_encoded[:, :-1].astype(int)
    y = X_encoded[:, -1].astype(int)

    # 将数据分成训练数据集合测试数据集
    num_training = int(0.7\*len(X))

    X_train, y_train = X[:num_training], y[:num_training]
    X_test, y_test = X[num_training:], y[num_training:]

    # 拟合一个决策树回归模型,限制最大深度为4
    dt_regressor = DecisionTreeRegressor(max_depth=4)
    dt_regressor.fit(X_train, y_train)

    # 再用AdaBoost算法的决策树回归模型进行拟合
    ab_regressor = AdaBoostRegressor(DecisionTreeRegressor(max_depth=4),
                                     n_estimators=400, random_state=7)
    # 第一个参数是基分类器,n\_estimators 基分类器循环次数,random\_state随机种子设置
    ab_regressor.fit(X_train, y_train)

    # 将训练数据代入普通的决策树
    y_pred_dt = dt_regressor.predict(X_test)
    # 预测结果暂时以数字形式保存在这个列表中,不一定是整数,可以通过后期设置条件,将其转换成整数。
    # 最后反标记编码,输出想要的字符串形式。
    y_pred_dt_string = []
    print(y_pred_dt.shape)

    for i in range(3888 - 1):
        if (y_pred_dt[i] >= 1 and y_pred_dt[i] <= 1.4):
            y_pred_dt_string.append('not\_recom')


![img](https://i-blog.csdnimg.cn/blog_migrate/8a33bcdf7d153ec293eba5a214e6e965.png)
![img](https://img-blog.csdnimg.cn/img_convert/9ae5c6766f85ba7b116b0bc4311fb6f8.png)
![img](https://img-blog.csdnimg.cn/img_convert/a3b545c1d4caac49c9ff370ba893f11c.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上软件测试知识点,真正体系化!**

**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化的资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618608311)**

里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化的资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618608311)**

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值