机器学习——主成分分析（PCA）

齐天大圣6666

于 2025-06-16 16:39:41 发布

阅读量2k

点赞数 48

CC 4.0 BY-SA版权

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/lzl123668/article/details/148695041

主成分分析（PCA）的深入解析

主成分分析（Principal Component Analysis, PCA）是机器学习和数据分析中最基础且应用广泛的降维技术。下面从理论基础、数学推导、算法实现到实际应用进行全面阐述。

理论基础

1. 数据降维的动机

维度灾难：高维数据在可视化、存储和计算时面临挑战
特征冗余：原始特征间可能存在高度相关性
噪声影响：过多特征可能包含噪声，影响模型性能

2. PCA 的目标

最大方差方向：找到一组正交基，使得数据在这些方向上的投影方差最大
最小重构误差：用低维子空间表示原始数据时，信息损失最小

3. 几何解释

PCA 可以理解为：

将坐标系旋转至数据方差最大的方向
数据在新坐标系下的投影构成主成分
丢弃方差较小的方向，保留主要信息

数学推导

1. 协方差矩阵

给定数据集 \(X \in \mathbb{R}^{n \times p}\)（n 个样本，p 个特征），中心化后的数据为： \(X_{\text{centered}} = X - \bar{X}\) 其中 \(\bar{X}\) 是每个特征的均值向量。

协方差矩阵 S 定义为： \(S = \frac{1}{n-1} X_{\text{centered}}^T X_{\text{centered}}\) S 是对称半正定矩阵，其对角元素是各特征的方差，非对角元素是特征间的协方差。

2. 优化目标

第一个主成分 \(w_1\) 是使得投影方差最大的方向： \(\max_{||w||=1} \frac{1}{n} \sum_{i=1}^n (x_i^T w)^2 = \max_{||w||=1} w^T S w\) 通过拉格朗日乘数法求解，得到： \(S w = \lambda w\) 即 w 是协方差矩阵 S 的特征向量，对应的特征值 \(\lambda\) 是投影方差。

3. 主成分的性质

主成分之间正交（不相关）
主成分按方差递减排序
总方差等于所有特征值之和
第 k 个主成分解释的方差比例为 \(\frac{\lambda_k}{\sum_{i=1}^p \lambda_i}\)

4. 降维与重构

选择前 k 个特征向量 \(W_k = [w_1, w_2, ..., w_k]\)，数据投影到低维空间： \(Z = X W_k\) 从低维表示重构原始数据： \(\hat{X} = Z W_k^T = X W_k W_k^T\) 重构误差为： \(||X - \hat{X}||^2 = \sum_{i=k+1}^p \lambda_i\)

算法实现

下面实现一个完整的 PCA 类，包含数据标准化、方差解释率计算和数据重构功能：

import numpy as np

class PCA:
    def __init__(self, n_components=None, normalize=True):
        """
        初始化PCA模型
        
        参数:
        n_components: 保留的主成分数量，None表示保留所有成分
        normalize: 是否对数据进行标准化
        """
        self.n_components = n_components
        self.normalize = normalize
        self.components_ = None  # 主成分
        self.explained_variance_ = None  # 各主成分的方差
        self.explained_variance_ratio_ = None  # 方差解释率
        self.mean_ = None  # 原始数据均值
        self.std_ = None  # 原始数据标准差
    
    def fit(self, X):
        """拟合PCA模型"""
        # 数据中心化
        self.mean_ = np.mean(X, axis=0)
        X_centered = X - self.mean_
        
        # 数据标准化（如果需要）
        if self.normalize:
            self.std_ = np.std(X_centered, axis=0, ddof=1)
            # 避免除以零
            self.std_[self.std_ == 0] = 1
            X_centered = X_centered / self.std_
        else:
            self.std_ = np.ones(X.shape[1])
        
        # 计算协方差矩阵
        n_samples = X.shape[0]
        cov_matrix = np.dot(X_centered.T, X_centered) / (n_samples - 1)
        
        # 特征值分解
        eigenvalues, eigenvectors = np.linalg.eigh(cov_matrix)
        
        # 按特征值降序排序
        idx = np.argsort(eigenvalues)[::-1]
        eigenvalues = eigenvalues[idx]
        eigenvectors = eigenvectors[:, idx]
        
        # 选择主成分
        if self.n_components is None:
            self.n_components = X.shape[1]
        elif isinstance(self.n_components, float) and 0 < self.n_components < 1:
            # 按方差解释率选择主成分
            explained_variance_ratio = eigenvalues / np.sum(eigenvalues)
            cumulative_variance = np.cumsum(explained_variance_ratio)
            self.n_components = np.argmax(cumulative_variance >= self.n_components) + 1
        
        self.components_ = eigenvectors[:, :self.n_components]
        self.explained_variance_ = eigenvalues[:self.n_components]
        self.explained_variance_ratio_ = self.explained_variance_ / np.sum(eigenvalues)
        
        return self
    
    def transform(self, X):
        """将数据转换到主成分空间"""
        X_centered = X - self.mean_
        if self.normalize:
            X_centered = X_centered / self.std_
        return np.dot(X_centered, self.components_)
    
    def fit_transform(self, X):
        """拟合模型并转换数据"""
        self.fit(X)
        return self.transform(X)
    
    def inverse_transform(self, X_transformed):
        """将主成分空间的数据重构回原始空间"""
        X_centered = np.dot(X_transformed, self.components_.T)
        if self.normalize:
            X_centered = X_centered * self.std_
        return X_centered + self.mean_
    
    def get_covariance(self):
        """获取协方差矩阵的低秩近似"""
        return np.dot(self.components_ * self.explained_variance_, self.components_.T)

# 使用示例
if __name__ == "__main__":
    # 生成示例数据
    np.random.seed(42)
    n_samples = 100
    n_features = 5
    
    # 创建相关特征
    X = np.random.randn(n_samples, n_features)
    X[:, 2] = 0.5 * X[:, 0] + 0.3 * X[:, 1] + np.random.randn(n_samples) * 0.1
    X[:, 4] = 0.7 * X[:, 3] + np.random.randn(n_samples) * 0.2
    
    # 应用PCA
    pca = PCA(n_components=2, normalize=True)
    X_pca = pca.fit_transform(X)
    
    print("原始数据形状:", X.shape)
    print("降维后数据形状:", X_pca.shape)
    print("方差解释率:", pca.explained_variance_ratio_)
    print("累计方差解释率:", np.sum(pca.explained_variance_ratio_))
    
    # 数据重构
    X_reconstructed = pca.inverse_transform(X_pca)
    reconstruction_error = np.mean((X - X_reconstructed) ** 2)
    print("重构误差:", reconstruction_error)

PCA 的变种与扩展

1. 核 PCA (Kernel PCA)

处理非线性数据降维
通过核函数将数据映射到高维特征空间，再应用 PCA
常用核函数：RBF 核、多项式核、Sigmoid 核

2. 增量 PCA (Incremental PCA)

处理大规模数据集，分批次计算主成分
适合内存无法一次性加载全部数据的情况

3. 稀疏 PCA (Sparse PCA)

产生稀疏的主成分，便于解释
每个主成分只依赖于少数原始特征

4. 鲁棒 PCA (Robust PCA)

对离群点和噪声更鲁棒
将数据分解为低秩部分和稀疏噪声部分

实际应用案例

1. 图像压缩与重构

将人脸图像（高维数据）用 PCA 降维
保留主要特征，丢弃次要细节
实现图像压缩和去噪

2. 基因数据分析

分析基因表达数据（通常维度很高）
发现样本间的主要变异模式
识别潜在的生物标志物

3. 金融风险分析

对股票收益率数据进行 PCA
识别市场的主要风险因子
构建投资组合，降低非系统性风险

4. 数据可视化

将高维数据（如客户特征、文本向量）降维到 2D 或 3D
直观展示数据分布和聚类模式
辅助决策和洞察发现

使用 PCA 的最佳实践

数据预处理：
- 对特征尺度差异较大的数据进行标准化
- 处理缺失值和异常值
确定主成分数量：
- 查看方差解释率曲线（Elbow 方法）
- 根据业务需求保留足够的方差（通常 80%-95%）
结果解释：
- 分析主成分的载荷（特征向量）
- 理解每个主成分代表的潜在含义
与其他方法结合：
- PCA + 聚类：发现数据的自然分组
- PCA + 回归：减少多重共线性，提高模型稳定性
- PCA + 深度学习：作为特征预处理步骤