目录
1、数据降维
降维的方法主要有两种:选择特征和抽取特征。选择特征即从原有的特征中挑选出最佳的特征,抽取特征即将数据由高维向低维投影,进行坐标的线性转换。PCA主成分分析即为典型的抽取特征的方法,它不仅是对高维数据降维,更重要的是经过降维去除噪声,发现数据中的模式。这一节主要介绍PCA主成分分析的基本原理,并通过简单案例来讲解如何通过Python来实现PCA主成分分析。
(1)PCA主成分分析原理介绍
1、二维空间降维
假设在二维坐标系上有一组数据,分别是A(1, 1),B(2, 2),C(3, 3),我们的目的就是把这一组二维数据转换为一维数据。
2、二维空间降维
如果需要将这组数据从二维降至一维,我们可以将"y = x"这一条直线作为新的坐标轴,在下图右边新的坐标体系中,只有一条横轴x',而不再具有纵轴了,这样就把原来的二维数据转换为一维数据了,点A(1, 1)就变成了2√2这一个一维坐标了,点B(2, 2)就变成了2√2这个一维坐标了。
在实际进行数据降维前首先需要对特征数据零均值化,即对每个特征维度的数据减去该特征的均值。
对于二维到一维的数据降维,其本质就是在将原始数据零均值化后,寻找下图所示的合适的线性组合系数α和β,来将二维数据转换为一维数据。
3、n维空间降维
如果原特征变量有n个,那么就是n维空间降维,n维空间降维的思路和二维空间降维的思路是一致的。例如将n维数据(X1,X2,...,Xn )转换为一维数据,就是寻找下图所示的线性组合系数a1、a2……an:
在实际应用中,Python已经提供了相应的计算库供我们使用,能够快速地帮我们计算出这些系数。分析的是n维向量转成1维向量,那么如何n维向量(X1,X2,...,</