2024年最新机器学习（二）决策树之儿童入学推荐_上学好处决策树，2024年最新还在等机会

本文介绍了使用决策树进行儿童入学推荐的预测分析。实验涉及数据集nursery.txt，包括儿童及家庭信息，旨在建立模型预测入学可能性。通过详细步骤展示了如何处理数据、构建训练和测试集，以及使用普通决策树和AdaBoost决策树模型，最后评估模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上软件测试知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化的资料的朋友，可以戳这里获取

实验内容

给定一个数据集合nursery.txt。该数据集包含12960个入学儿童的自身及家庭状况以及是否推荐他们入学，目标是找到决策树模型可以将这些数据拟合，从而对是否入学做出预测分析，同时通过计算它的均方误差来评价拟合的好坏。

一、详细步骤

（1）从这个网址下载nursery.data，然后将修改扩展名，将其修改成Python容易处理的nursery.txt文件
（2）导入相关的包
（3）读取数据，加载到numpy数组中
（4）对数据进行标记编码
（5）将数据分为训练集和测试集
（6）使用训练集拟合普通的决策树模型和AdaBoost的决策树模型
（7）将测试数据代入训练好的两个模型，得到用标记编码表示的测试结果
（8）将测试结果反标记编码，转换为原来的字符串形式
（9）通过计算均方误差和可释方差分数评估两个模型的拟合效果

二、实现代码

import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.metrics import mean_squared_error,explained_variance_score
from sklearn import preprocessing


if __name__ == '\_\_main\_\_':
    input_file = 'nursery.txt'

    # 读取数据
    schooling_data = []
    y = []
    count = 0
    with open(input_file, 'r') as f:
        for line in f.readlines():
            data = line[:-1].split(',')
            schooling_data.append(data)

    schooling_data = np.array(schooling_data)

    # 对数据进行标记编码
    label_encoder = []
    X_encoded = np.empty(schooling_data.shape)

    for i,item in enumerate(schooling_data[0]):
        label_encoder.append(preprocessing.LabelEncoder())
        X_encoded[:, i] = label_encoder[-1].fit_transform(schooling_data[:, i])

    X = X_encoded[:, :-1].astype(int)
    y = X_encoded[:, -1].astype(int)

    # 将数据分成训练数据集合测试数据集
    num_training = int(0.7\*len(X))

    X_train, y_train = X[:num_training], y[:num_training]
    X_test, y_test = X[num_training:], y[num_training:]

    # 拟合一个决策树回归模型，限制最大深度为4
    dt_regressor = DecisionTreeRegressor(max_depth=4)
    dt_regressor.fit(X_train, y_train)

    # 再用AdaBoost算法的决策树回归模型进行拟合
    ab_regressor = AdaBoostRegressor(DecisionTreeRegressor(max_depth=4),
                                     n_estimators=400, random_state=7)
    # 第一个参数是基分类器，n\_estimators 基分类器循环次数，random\_state随机种子设置
    ab_regressor.fit(X_train, y_train)

    # 将训练数据代入普通的决策树
    y_pred_dt = dt_regressor.predict(X_test)
    # 预测结果暂时以数字形式保存在这个列表中，不一定是整数，可以通过后期设置条件，将其转换成整数。
    # 最后反标记编码，输出想要的字符串形式。
    y_pred_dt_string = []
    print(y_pred_dt.shape)

    for i in range(3888 - 1):
        if (y_pred_dt[i] >= 1 and y_pred_dt[i] <= 1.4):
            y_pred_dt_string.append('not\_recom')


![img](https://i-blog.csdnimg.cn/blog_migrate/8a33bcdf7d153ec293eba5a214e6e965.png)
![img](https://img-blog.csdnimg.cn/img_convert/9ae5c6766f85ba7b116b0bc4311fb6f8.png)
![img](https://img-blog.csdnimg.cn/img_convert/a3b545c1d4caac49c9ff370ba893f11c.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上软件测试知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化的资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618608311)**

里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化的资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618608311)**