
修改列名:
方法一:
data = data.rename(columns={'user_id':'用户ID', 'item_id':'商品ID', 'behavior_type':'行为类型', 'user_geohash':'行为发生时用户的位置', 'item_category':'商品类别',
'time':'时间'})
如果需要修改的同字段的表有多张:
方法二:
colname= ['id','上次评分','项目数','月平均工时','工龄','是否有工伤','福利等级','五年内是否有升职','部门','工资水平','满意度']
name = {i:j for i,j in zip(data_train.columns,colname)}
data_train = data_train.rename(columns=name)
data_test= data_test.rename(columns=name)

缺失值探索:
方法一:
data_train.isnull().any()

data_train.isnull().all()

方法二:
pip install ProfitDataFrame
import ProfitDataFrame as pdf
pdf1 = pdf.Profitdataframe(data_train)
info = pdf1.q_info()
info

join函数使用方法:
现在手上有这样两张表格,要将结果并入到第一张表该咋整呢?


import pandas as pd
data1=pd.read_csv(r'F:标题更改测试集.csv')
data2=pd.read_csv(r'F:预测.csv')
data1=data1.set_index('id').join(data2.set_index('id'))
data1.to_csv(r'F:测试集+满意度.csv')

ok