pandas.get_dummy

本文介绍了如何利用pandas的get_dummies方法进行独热向量编码,将分类特征转换为数值特征,以适应机器学习模型的输入需求。同时提到了sklearn的OneHotEncoder作为替代方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


独热向量编码/One-Hot-Encoding (Dummy variables) 
颜色:红、黄、紫[1,0,0] [0,1,0] [0,0,1] LR = theta*X 
红色 蓝色 黄色 紫色 咖啡色 白色… => 红色 蓝色 黄色 rare 
sklearn OneHotEncoder;pandas get_dummies

# create a dataframe with an integer feature and a categorical string feature
import pandas as pd
demo_df = pd.DataFrame({'Integer Feature': [0, 1, 2, 1], 'Categorical Feature': ['socks', 'fox', 'socks', 'box']})
demo_df
  • 1
  • 2
  • 3
  • 4

这里写图片描述

pd.get_dummies(demo_df)   #get_dummies对“整数特征”无变化,对“类别特征”one-hot编码
  • 1

这里写图片描述

demo_df['Integer Feature'] = demo_df['Integer Feature'].astype(str)
pd.get_dummies(demo_df)   #将“整数特征”变成“字符型类别”进行one-hot编码
  • 1
  • 2

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值