AI: 什么是机器学习的数据清洗(Data Cleaning)

本文探讨了数据清洗的重要性,包括处理极端值、缺失值和重复数据,以及特征缩放的必要性。缩放特征值有助于加速模型训练,避免数值溢出,并确保每个特征得到适当权重。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >



数据清洗 (Data Cleaning)

为什么要数据清洗?:一颗老鼠屎也会破坏掉一整个大规模数据集

数据清洗要达到的目标是什么?:目标让模型更加泛化,让数据更体现其价值,最好能清洗出特征数据,从而让模型更精确

在这里插入图片描述

缩放特征值(Scaling)

将特征数据归一化处理,即转换数据集的数值范围(也叫标准化数据),

缩放是指将浮点特征值从自然范围(例如 100 到 900)转换为标准范围(例如 0 到 1 或 -1 到 +1)。
如果特征集包含多个特征,则缩放特征可以带来以下优势:

  • 帮助梯度下降法更快速地收敛。
  • 帮助避免“NaN 陷阱”。在这种陷阱中,模型中的一个数值变成
    NaN(例如,当某个值在训练期间超出浮点精确率限制时),并且模型中的所有其他数值最终也会因数学运算而变成 NaN。
  • 帮助模型为每个特征确定合适的权重。如果没有进行特征缩放,则模型会对范围较大的特征投入过多精力。

处理极端、离群/缺省值、去重等

处理错误数据、重复数据、残缺数据缺省补齐等

如何最大限度降低这些极端离群值的影响?

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HowieXue

求打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值