使用集成学习对不同的机器学习方法进行集成-CSDN博客

本文链接：https://blog.csdn.net/2301_80651329/article/details/142359682

本数据集中有 43 行，19 列，数据集包含如下字段：

首先读取数据：

import pandas as pd

# 读取Excel文件
data = pd.read_excel('数据人才的现场调研.xls')

可以输出每一列含有的不同的值：

# 打印每一列的唯一值
for column in data.columns:
    print(f"Unique values in {column}:")
    print(data[column].unique())

一：特征选择

# 找出含有不同数值小于 5 的列
columns_to_encode = [col for col in data.columns if len(data[col].unique()) < 5 and col!= '11、您对于目前数据团队的工作是否满意']

# 对选定的列进行独热编码
encoded_data = pd.get_dummies(data[columns_to_encode])


encoded_data = encoded_data.astype(int)
# 对“11、您对于目前数据团队的工作是否满意”列进行处理
data['11、您对于目前数据团队的工作是否满意'] = data['11、您对于目前数据团队的工作是否满意'].map({'满意': 1, '一般': 0,'不满意':'0','尚未建立数据团队': 0})


# 合并独热编码后的数据和处理后的“11、您对于目前数据团队的工作是否满意”