本数据集中有 43 行,19 列,数据集包含如下字段:
首先读取数据:
import pandas as pd
# 读取Excel文件
data = pd.read_excel('数据人才的现场调研.xls')
可以输出每一列含有的不同的值:
# 打印每一列的唯一值
for column in data.columns:
print(f"Unique values in {column}:")
print(data[column].unique())
一:特征选择
# 找出含有不同数值小于 5 的列
columns_to_encode = [col for col in data.columns if len(data[col].unique()) < 5 and col!= '11、您对于目前数据团队的工作是否满意']
# 对选定的列进行独热编码
encoded_data = pd.get_dummies(data[columns_to_encode])
encoded_data = encoded_data.astype(int)
# 对“11、您对于目前数据团队的工作是否满意”列进行处理
data['11、您对于目前数据团队的工作是否满意'] = data['11、您对于目前数据团队的工作是否满意'].map({'满意': 1, '一般': 0,'不满意':'0','尚未建立数据团队': 0})
# 合并独热编码后的数据和处理后的“11、您对于目前数据团队的工作是否满意”