【AI基础:机器学习】15、降维学习指南:从PCA到特征选择,原理、代码与实战图解

降维学习完全指南:从PCA到特征选择,原理、代码与实战图解

在这里插入图片描述

“好钢用在刀刃上”——降维学习(Dimensionality Reduction)通过提炼高维数据的核心信息,剔除冗余与噪声,将有限的计算资源与认知精力聚焦于数据的“关键维度”。从图像识别到基因分析,高维数据(成百上千甚至数万特征)无处不在,而“维度灾难”(计算低效、过拟合风险、可视化困难)却成为阻碍分析的瓶颈。

本文将系统拆解降维的核心原理、主流方法(PCA、t-SNE、特征选择等)、实战技巧与应用场景,用图解和代码揭示“化繁为简”的智慧。

一、降维的核心思想:为何“精简”更高效?

1.1 维度灾难:高维数据的困境

高维数据(如1000维特征)看似包含更多信息,实则带来多重挑战:

  • 计算爆炸:距离计算、矩阵运算的复杂度随维度呈多项式增长(如PCA的时间复杂度为O(d3)O(d^3)O(d3)ddd为特征数);
  • 过拟合风险:样本量有限时,高维特征易导致模型“记住”噪声而非规律;
  • 数据稀疏性:高维空间中样本分布稀疏,相邻样本的距离差异被稀释(“所有点都差不多远”);
  • 可视化障碍:人类无法直接理解三维以上空间,难以洞察数据结构。

1.2 降维的本质:保留“关键信息”

降维的目标是将高维数据映射到低维空间(如2D/3D或数百维),同时最大化保留数据的核心结构(如聚类关系、线性趋势、非线性流形)。其哲学是“抓主要矛盾”:

  • 剔除冗余特征(如高度相关的“身高”与“体重”);
  • 过滤噪声(如传感器误差、测量偏差);
  • 提炼本质模式(如区分图像类别的关键边缘特征)。

图示1:降维的直观效果

左图(高维数据):
  100维特征空间中的样本分布(抽象表示),结构模糊,计算复杂

右图(降维后):
  映射到2D空间后的样本分布,聚类清晰,噪声被过滤,可直接可视化

二、线性降维:捕捉全局线性结构

线性降维假设数据的核心结构可通过线性变换(投影)提取,适用于特征间呈线性关系的场景(如金融指标、传感器数据)。

2.1 主成分分析(PCA):方差最大化的正交投影

PCA是最经典的线性降维方法,通过寻找“方差最大的正交方向”(主成分),将高维数据投影到低维空间。

(1)核心原理与步骤
  1. 数据标准化:去除均值(使特征均值为0),避免尺度差异影响(如“身高”以米为单位,“体重”以千克为单位)。
  2. 计算协方差矩阵:衡量特征间的相关性(协方差矩阵C=1n−1XTXC = \frac{1}{n-1}X^TXC=n11XTXXXX为标准化数据)。
  3. 特征值分解:对协方差矩阵CCC分解,得到特征值λ1≥λ2≥...≥λd\lambda_1 \geq \lambda_2 \geq ... \geq \lambda_dλ1λ2...λd(方差贡献)和对应特征向量w1,w2,...,wdw_1, w_2, ..., w_dw1,w2,...,wd(主成分方向)。
  4. 选择主成分:保留前kkk个最大特征值对应的特征向量(累计方差解释率通常需≥85%)。
  5. 数据投影:将标准化数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无心水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值