主成分分析法(PCA)——降维

本文介绍了一种有效的数据降维方法——主成分分析(PCA),详细阐述了PCA的应用场景、实施步骤及常见误区,并通过MATLAB代码示例展示了如何具体操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

主成分分析是一种降维算法,它能将多个指标转换为少数几
个主成分,这些主成分是原始变量的线性组合,且彼此之间
互不相关,其能反映出原始数据的大部分信息。一般来说,
当研究的问题涉及到多变量且变量之间存在很强的相关性时,
我们可考虑使用主成分分析的方法来对数据进行简化。

步骤

  1. 样本标准化
  2. 计算标准化样本协方差矩阵
  3. 计算R的特征值和特征向量
  4. 得出主成分贡献率和累计贡献率
  5. 利用得分矩阵算出主成分
  6. 解释主成分含义

误区

对于主成分分析降维以后,一般可以很好地用于聚类和回归,但是不能用于评价模型

建议

  1. spss软件更加快速,方便
  2. 数据不要忘记标准化
  3. 要对主成分的有很好的解释

Matlab代码

clear;clc
 load data1.mat   % 主成分聚类
%  load data2.mat   % 主成分回归

% 注意,这里可以对数据先进行描述性统计
% 描述性统计的内容见第5.相关系数
[n,p] = size(x);  % n是样本个数,p是指标个数

%% 第一步:对数据x标准化为X
X=zscore(x);   % matlab内置的标准化函数(x-mean(x)/std(x)

%% 第二步:计算样本协方差矩阵
R = cov(X);

%% 注意:以上两步可合并为下面一步:直接计算样本相关系数矩阵
R = corrcoef(x);
disp('样本相关系数矩阵为:')
disp(R)

%% 第三步:计算R的特征值和特征向量
% 注意:R是半正定矩阵,所以其特征值不为负数
% R同时是对称矩阵,Matlab计算对称矩阵时,会将特征值按照从小到大排列哦
% eig函数的详解见第一讲层次分析法的视频
[V,D] = eig(R);  % V 特征向量矩阵  D 特征值构成的对角矩阵


%% 第四步:计算主成分贡献率和累计贡献率
lambda = diag(D);  % diag函数用于得到一个矩阵的主对角线元素值(返回的是列向量)
lambda = lambda(end:-1:1);  % 因为lambda向量是从小大到排序的,我们将其调个头
contribution_rate = lambda / sum(lambda);  % 计算贡献率
cum_contribution_rate = cumsum(lambda)/ sum(lambda);   % 计算累计贡献率  cumsum是求累加值的函数
disp('特征值为:')
disp(lambda')  % 转置为行向量,方便展示
disp('贡献率为:')
disp(contribution_rate')
disp('累计贡献率为:')
disp(cum_contribution_rate')
disp('与特征值对应的特征向量矩阵为:')
% 注意:这里的特征向量要和特征值一一对应,之前特征值相当于颠倒过来了,因此特征向量的各列需要颠倒过来
%  rot90函数可以使一个矩阵逆时针旋转90度,然后再转置,就可以实现将矩阵的列颠倒的效果
V=rot90(V)';
disp(V)


%% 计算我们所需要的主成分的值
m =input('请输入需要保存的主成分的个数:  ');
F = zeros(n,m);  %初始化保存主成分的矩阵(每一列是一个主成分)
for i = 1:m
    ai = V(:,i)';   % 将第i个特征向量取出,并转置为行向量
    Ai = repmat(ai,n,1);   % 将这个行向量重复n次,构成一个n*p的矩阵
    F(:, i) = sum(Ai .* X, 2);  % 注意,对标准化的数据求了权重后要计算每一行的和
end

%% (1)主成分聚类 : 将主成分指标所在的F矩阵复制到Excel表格,然后再用Spss进行聚类
% 在Excel第一行输入指标名称(F1,F2, ..., Fm)
% 双击Matlab工作区的F,进入变量编辑中,然后复制里面的数据到Excel表格
% 导出数据之后,我们后续的分析就可以在Spss中进行。

%%2)主成分回归:将x使用主成分得到主成分指标,并将y标准化,接着导出到Excel,然后再使用Stata回归
% Y = zscore(y);  % 一定要将y进行标准化哦~
% 在Excel第一行输入指标名称(Y,F1, F2, ..., Fm)
% 分别双击Matlab工作区的Y和F,进入变量编辑中,然后复制里面的数据到Excel表格
% 导出数据之后,我们后续的分析就可以在Stata中进行。

### 主成分分析法 (PCA) 的原理 主成分分析是一种用于的技术,旨在通过线性变换将一组可能存在相关性的变量转换成一组线性不相关的变量。这组新的变量被称为“主成分”,其中第一个主成分具有最大的方差,第二个主成分则是在与第一个主成分正交的前提下拥有最大方差,以此类推[^2]。 为了实现这一目标,算法会尝试找到能够最大化数据投影后方差的方向作为新坐标轴方向。这样做不仅减少了度数量,还尽可能保持了原有数据集中的重要信息[^1]。 ### 实现过程概述 具体来说,PCA 的实现通常遵循以下几个方面: #### 数据预处理 在执行 PCA 之前,需要先对输入的数据进行中心化(即减去均值),有时还需要进一步标准化(即将标准差调整为 1)。这是因为不同尺度上的特征会影响最终的结果,因此有必要使各个特征处于相似的数量级上[^3]。 #### 计算协方差矩阵并求解特征值和特征向量 接着计算样本间的协方差矩阵或相关系数矩阵,并对该矩阵做谱分解得到对应的特征值及其相应的特征向量。这些特征向量定义了新的坐标系下的基底;而它们所关联的特征值反映了沿该方向变化的程度大小——较大的特征值意味着更多的变异被捕捉到了这条线上面。 ```matlab CM = corrcoef(SA); % 计算标准化后的数据的相关系数矩阵 [V, D] = eig(CM); % 计算相关系数矩阵的特征值D和特征向量V ``` #### 构建映射矩阵 选取前 k 个具有最高特征值的特征向量组成投影矩阵 W,这里 k 小于等于原空间度 n 并决定了输出低表示的空间数 m=k。此操作实际上是从高到低的一个线性映射 T(x)=W^T * x ,它能有效地低原始数据集中存在的冗余度同时保留大部分有用的信息。 ```python import numpy as np def pca(X, num_components): # 中心化数据 X_meaned = X - np.mean(X , axis=0) cov_mat = np.cov(X_meaned , rowvar=False) eigen_values , eigen_vectors = np.linalg.eigh(cov_mat) sorted_index = np.argsort(eigen_values)[::-1] sorted_eigenvectors = eigen_vectors[:,sorted_index] chosen_components = sorted_eigenvectors [:,:num_components] reduced_data = np.dot(chosen_components.transpose() , X_meaned.transpose()).transpose() return reduced_data ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值