使用PCA对数据集进行降维

使用PCA对数据集进行降维

一、实验准备

1、实验内容和目的

  • 使用主成分分析(PCA)对鸢尾花数据集进行降维操作,其中要求绘制出降维后的数据分布散点图并说明降维后的维度,提取的主成分的特征值

  • 其中数据集文件为iris.data.txt。数据集中的每个样本有4个特征参数,最后的标签为鸢尾花的类别

2、实验原理

  • 前面学习到了KNN分类算法,然后使用KNN算法进行鸢尾花的分类。分类时,虽然将数据集中的所有特征都纳入了考虑范围,都参与了计算,但由于只有4个特征,并不会明显地加大计算的复杂程度。但如果处理别的数据集时,假如此时的样本拥有成百上千个特征,还会一样的轻松吗?

  • 想象这样一种场景:我们正通过电视而非现场观看体育比赛,在电视上的纯平显示器上有一个球。显示器大概包含了100万像素,而球则可能是由较少的像素组成的,比如说一千个像素。在大部分体育比赛中,我们关注的是给定时刻球的位置。人的大脑要想了解比赛的进展,就需要了解球在运动场中的位置。对于人来说,这一切显得十分自然,甚至都不需要做任何思考。在这个场景当中,人们实时地将显示器上的百万像素转换成为了一个三维图像,该图像就给出了运动场上球的位置。在这个过程中,人们已经将数据从一百万维降至了三维

  • 在上述体育比赛的例子中,人们面对的原本是百万像素的数据,但是只有球的三维位置才最重要,这就称作降维。在低维下,数据更容易进行处理。另外,其相关特征可能在数据中明确地显示出来

  • 降维就是对高维度特征的一种预处理方法,它将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用当中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法

  • 主成分分析(PCA)就是一种降维技术,它通过正交变换把可能线性相关的变量转换为几乎线性无关的变量,这些变量就是所谓的“主成分”

2.1 PCA的工作原理
  • 在PCA中,数据从原来的坐标系转换到新的坐标系,由数据本身决定。转换坐标系时,以方差最大的方向作为坐标轴方向,因为数据的最大方差给出了数据的最重要信息。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程,重复次数为原始数据的特征维数

  • 通过这种方式获得的新的坐标系,大部分方差都包含在前面几个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面的几个含有绝大部份方差坐标轴。事实上,这样也就相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,也就实现了对数据特征的降维处理

2.2 计算协方差矩阵
  • PCA的原理已经知道了,那么我们如何得到这些包含最大差异性的主成分方向呢?事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值及特征向量,选择特征值最大(也即包含方差最大)的N个特征所对应的特征向量组成的矩阵,我们就可以将数据矩阵转换到新的空间当中,实现数据特征的降维

  • 这里说一下方差和协方差之间的关系,首先看一下均值、方差和协方差的计算公式:

X‾=1N∑i=1NXi\overline{X}=\frac{1}{N}\sum_{i=1}^NX_iX=N1i=1NXi

S=1N−1∑i=1N(Xi−X‾)2S=\frac{1}{N-1}\sum_{i=1}^N(X_i-\overline{X})^2S=N

PCA(Principal Component Analysis)是一种常用的方法,它可以将高数据转换成低数据,同时保留原始数据的主要特征。 在对MNIST数据集进行时,我们首先需要对数据进行预处理,例如对每个像素值进行标准化处理,使其均值为0,方差为1。然后,我们将数据输入PCA模型中。PCA模型会计算出一组特征向量和对应的特征值,特征向量表示数据中的主要方向,特征值表示数据在对应特征向量上的重要程度。 我们可以根据特征值的大小来选择保留多少个主要特征向量。通常,我们选择前K个特征向量,其中K是我们预先设定的度。这样,我们可以将原始的高数据转换成K数据,实现数据。 通过对MNIST数据集进行PCA,可以达到以下几个目的: 1. 减少数据度,低计算和存储的复杂性。原始的MNIST数据集包含784的特征(每个样本是28x28的像素矩阵),而PCA可以将数据到更低度,例如50,从而减少需要处理的特征数量。 2. 保留了数据的主要特征。通过选择保留较大特征值对应的特征向量,PCA可以保留数据中最重要的信息,从而在的同时尽量减少信息损失。 3. 可视化数据。通过后的数据,我们可以更容易地对数据进行可视化,例如绘制散点图、热力图等,从而更好地理解数据的分布和结构。 需要注意的是,后的数据可能损失一部分细节信息,因此的合理性需要根据具体问题进行评估。同时,在PCA的应用中,我们还可以通过调整度数量、选择其他方法(如LDA、t-SNE等)来进行对比和分析,以获得更好的效果。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JiangNanMax

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值