一.原理简介
LDA线性判别分析,是一种监督学习算法,但在二分类问题上,由于最早由Ronald Fisher提出,
所以也称为Fisher判别分析(FDA),但LDA与FDA还是有些区别的,LDA假设各类样本数据都是
高斯分布,协方差矩阵相同且满秩。相比PCA,LDA是有监督的降维算法,即数据是有标签的(类
别标签)。
如下图所示的数据,根据PCA算法,数据应该映射到数据方差最大的方向,即垂直方向(红线方
向),但是图示中的两个类别将完全混合混在一起,很难区分开,这时候我们发现采用PCA算法来
解决问题的效果非常差,但是如果我们采用LDA,数据将映射到水平轴方向(蓝线方向),这时候
我们发现同类数据比较集中,不同类的数据被完全地分开,效果正如我们想要的那样。
二.二分类LDA原理推导
LDA主要是为了分类,所以相应的投影方向w,使得投影后的数据尽可能按照原始的类别进行分
开,我们仍从上面的二分类问题出发,我们假设两个类别的均值(中心)分别为、
。我们希望投影后两个类的距离尽可能大,这样易于区分,类间距离可以表
示为(
、
表示两类中心在w方向上的投影向量),其中
,因此优化问题可以表示为:
为此我们定义类间散度矩阵为:(between-class scatter matrix)