主成分分析 Principal component analysis
1 基本思想
主成分分析就是把原来的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。
1.1 数学模型
p个维度来描述一个实际问题,那么N个样本的数学模型可以表示为:
主成分分析的通常做法是寻求原指标的线性组合$F_i$。
其中系数矩阵需要满足如下的条件:
主成分分析的几何解释
1.2 主成分的计算
二维情况下,N个样本的分布情况
我们已经把主成分F1和F2的坐标原点放在平均值($\hat x_1, \hat x_2$)所在处,从而使得F1和F2称为中心化的变量,即F1和F2的样本均值都是零。
因此,F1可以表示为
那么怎么寻找合适的单位变量($a_11