数据处理与编码：多元插补、KNN估计及分类变量编码

### 数据处理与编码：多元插补、KNN 估计及分类变量编码在数据处理和机器学习建模过程中，处理缺失数据和对分类变量进行编码是非常重要的步骤。本文将详细介绍多元插补、KNN 估计缺失数据以及分类变量的独热编码方法，并给出具体的操作步骤和代码示例。 #### 1. 多元插补（Multivariate Imputation by Chained Equations, MICE）多元插补方法与单变量插补不同，它使用多个变量来估计缺失值。MICE 方法将每个有缺失值的变量建模为其余变量的函数，并使用该估计进行插补。 ##### 1.1 MICE 步骤 1. 对每个有缺失数据的变量进行简单的单变量插补，例如中位数插补。 2. 选择一个特定的变量，例如 var_1，并将其缺失值设置回缺失状态。 3. 使用其余变量作为输入特征训练一个模型来预测 var_1。 4. 用新的估计值替换 var_1 的缺失值。 5. 对其余每个变量重复步骤 2 到 4。当所有变量都基于其余变量进行建模后，一轮插补结束。通常会进行多次插补循环，一般为 10 次。其思想是，到循环结束时，插补参数的分布应该已经收敛，这意味着我们应该已经找到了缺失数据的最佳估计值。 ##### 1.2 使用 scikit-learn 实现 MICE ```python import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.linear_model import BayesianRidge from sklearn.experimental import enable_iterative_imputer from sklearn.impute import IterativeImputer # 加载数据 variables = ["A2", "A3", "A8", "A11", "A14", "A15", "target"] data = pd.read_csv("credit_approval_uci.csv", usecols=variables) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( data.drop("target", axis=1), data["target"], test_size=0.3, random_state=0, ) # 创建 MICE 插补器 imputer = IterativeImputer( estimator=BayesianRidge(), max_iter=10, random_state=0, ) # 拟合训练集 imputer.fit(X_train) # 填充训练集和测试集的缺失值 X_train = imputer.transform(X_train) X_test = imputer.transform(X_test) # 验证是否还有缺失数据 print(pd.DataFrame(X_train).isnull().sum()) ``` #### 2. KNN 估计缺失数据在 K 近邻（K-Nearest Neighbors, KNN）插补中，缺失值用其 k 个最近邻的均值替换。每个观测值的邻居通过距离（如欧几里得距离）来查找，替换值可以估计为邻居值的均值或加权均值，其中较远的邻居对替换值的影响较小。 ##### 2.1 使用 scikit-learn 实现 KNN 插补 ```python import matplotlib.pyplot as plt import pandas as pd from sklearn.model_selection import train_test_split from sklearn.impute import KNNImputer # 加载数据 variables = ["A2", "A3", "A8", "A11", "A14", "A15", "target"] data = pd.read_csv("credit_approval_uci.csv", usecols=variables) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( data.drop("target", axis=1), data["target"], test_size=0.3, random_state=0, ) # 设置插补器 imputer = KNNImputer(n_neighbors=5, weights="distance") # 查找最近邻 imputer ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

数据处理与编码：多元插补、KNN估计及分类变量编码

相关推荐

专栏目录

数据处理与编码：多元插补、KNN估计及分类变量编码

相关推荐

R语言中缺失数据处理：策略与实践

六轴机器人仿真与轨迹规划：姿态插补及关节笛卡尔空间轨迹规划技术详解

六轴机器人仿真与轨迹规划：姿态插补及关节/笛卡尔空间轨迹规划技术详解

R语言处理类别数据与缺失数据：IRT分析的实用指南

【数据缺失下的概率模型】：高效处理不完整数据的策略与方法

仓库监控系统中的数据分析与报表生成技术：让数据说话的艺术

【数据清洗与特征工程】：揭秘Kaggle房价预测的五大关键步骤

【Stata实战】：缺失值处理陷阱揭秘及解决方案

预测建模优化技巧：提升数据挖掘模型性能的策略

【医学研究中的PLS-DA】：疾病预测与诊断的精准工具

bochs 配置使用及相关debug

科技管理部门和系统开发商如何利用AI+数智应用实现科技管理的高效与价值最大化？.docx

专栏目录

最新推荐

强化学习与合成数据生成：UnityML-Agents深度解析

利用Kaen实现PyTorch分布式训练及超参数优化

模型生产化：从本地部署到云端容器化

排行榜接入全攻略：第三方SDK集成实战详解

使用PyTorch构建电影推荐系统

利用PyTorch进行快速原型开发

二维和三维偏微分方程耦合求解及生命科学中常微分方程问题的解决

电力电子中的Simulink应用：锁相环、静止无功补偿器与变流器建模

多视图检测与多模态数据融合实验研究

模糊推理系统对象介绍