斯坦福ML公开课：EM算法在因子分析中的应用

PDF文件

下载需积分: 0 | 446KB | 更新于2024-08-05 | 121 浏览量 | 举报收藏

立即下载

在斯坦福大学的机器学习公开课程13B1中，讲师深入探讨了如何使用期望最大化(EM)算法求解因子分析模型的参数。在处理混合高斯模型时，当训练数据样本数量小于样本维度时，由于协方差矩阵的非奇异性问题，可能导致计算难度。这个问题本质上反映了数据信息不足，使得模型无法充分利用所有可用信息。为解决这一问题，讲师提出了两种策略：一是通过调整模型假设来简化问题。比如，将协方差矩阵限制为对角矩阵，这相当于假设数据在各个维度上的独立性增强，使得即使样本数少于维度也能估计出特定形式的协方差矩阵。更强的假设是进一步要求对角线元素相等，这将高斯分布的投影变为圆形，降低了参数估计的复杂性。另一种策略是降低模型的复杂度，引入更简单的模型，如因子分析模型。因子分析是一种假设数据存在潜在变量或因子影响观测变量的模型。它通过引入较少的因子来解释数据的多维性，从而减少参数数量，缓解过拟合风险。在介绍因子分析模型前，首先回顾了高斯分布的一种矩阵表示形式，这对于理解因子分析的数学基础至关重要。在因子分析中，随机向量被分解为两个部分，一部分是观察变量，另一部分是不可见的潜在因子。这些因子的协方差矩阵被假定为对角化形式，简化了参数估计的过程。使用EM算法求解因子分析模型参数时，通过迭代过程不断优化模型参数，使得观测数据的似然函数最大化。总结来说，斯坦福ML公开课13B1的内容围绕着混合高斯模型的局限性和因子分析模型的引入，展示了如何通过调整模型假设和降低复杂度来处理数据维度高于样本数的情况，并详细介绍了如何运用EM算法来估计因子分析模型的参数。这部分内容对于理解和应用高维数据分析，特别是处理数据稀疏和信息不足情况具有重要意义。

http://weibo.com/yanxiangzhang http://blog.csdn.net/stdcoutzyx

斯坦福 ML 公开课 13B

本文是《斯坦福 ML 公开课笔记 13A》的续篇。主要讲述针对混合高斯模型的问题所采

取的简单解决方法，即对假设进行限制的简单方法，最后引出因子分析模型（Factor Analysis

Model），包括因子分析模型的介绍、EM 求解等。

混合高斯模型的问题

在上一篇笔记中，谈到对于混合高斯模型来说，当训练数据样本数目小于样本的维度时，

因为协方差矩阵的非奇异性，导致不能得到概率密度函数的问题。而对于其他模型来说，样

本数小于样本维度，也容易引起过拟合的问题。

追本溯源，这个问题可以认为是数据信息缺乏的问题，即从训练数据中得不到模型所需

的全部信息。解决办法就是减少模型所需要的信息，本文提到的手段有两个，第一个就是不

改变现有模型，但是加强模型的假设，下面提到的对协方差矩阵的限制即是此类。第二个手

段则是降低模型的复杂度，提出一个需要更少参数（更少参数即是需要更少信息）的模型，

因子分析模型即是此类。

限制协方差矩阵的方法，其实在 13A 文章中已提到。一个稍弱的假设是假设协方差矩

阵为对角矩阵，更强的假设是假设协方差矩阵为对角矩阵且对角线上的值都相等。怎样直观

的理解这两个假设呢？请看下图。

对于二维多元高斯分布来说，它有一个几何特性。即在平面上的投影是一个椭圆，当假

设该分布的协方差矩阵为对角矩阵时，那么这个椭圆的轴就与坐标轴平行。当限制对角线上

的值都相等时，那么投影就变成了圆。

当需要估计出完整的协方差矩阵时，需要的样本数目 m 必须大于样本维度 n。但是当有

上述对角线假设时，只要样本数目大于 1 就可以估计出限定的协方差矩阵。

接下来讨论因子分析模型，在介绍因子分析模型之前，先看高斯分布的另一种写法，该

写法是推导因子分析模型的基础。

高斯分布的矩阵写法

下面我们先看高斯分布的另一种写法。假设我们拥有三个随机向量



 







 



。

 󰇣









󰇤 (1)

那么  



，假设󰇛󰇜，且

 󰇣









󰇤 





















(2)

这里，











 







 







 



















。因为协方差矩阵

下载后可阅读完整内容，剩余6页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

成为会员后, 你将解锁

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

shashashalalala

粉丝: 28

斯坦福ML公开课：EM算法在因子分析中的应用

斯坦福机器学习ML公开课笔记1-15（完整版、带目录索引和NG原版讲义）

Stanford 机器学习讲义中文版

pwnedOS11:WIP iOS 11-12.2和13b1，b2 Safari越狱

dseo13b.rar

dseo13b.zip

delta13b-main

nosql13b.mp4

Orca 13B模型论文

dseo13b.exe

pwnedOS11: iOS 11-12.2与13b1, b2 Safari越狱指南

最新资源