降维方法
任务描述
-
目的:
-
现实样本的属性维度通常很高,在高维样本空间中,通常会出现“维度灾难”问题,其表现有:
- 数据样本密度低(稀疏):对训练集更容易拟合出精确的模型,但同时学习到了噪声,泛化能力降低(引起过拟合)
- 以线性分类为例,高维稀疏空间下更容易找到完美的训练集分割超平面,但模型复杂程度增加,如果训练数据没有指数级的增加以保持保持同样的距离分布,反而会引起过拟合
- 距离衡量失效:很多学习方法基于样本距离计算,在高维空间中,数据的稀疏性致使数据点在空间上分布不均匀,大部分样本点都远离高维空间中心,因此在高维空间用距离来衡量样本相似性的方法已经渐渐失效
- 数据样本密度低(稀疏):对训练集更容易拟合出精确的模型,但同时学习到了噪声,泛化能力降低(引起过拟合)
-
-
为了应对维度灾难,提出了降维方法
-
降维方法
- 思想:通过某种数学方法将原始高维空间转变为一个低维子空间
- 合理性:观测到的样本数据虽然是高维,但与具体任务相关的可能只是部分属性或者说某个低维分布,即高维空间中一个低维的嵌入(embedding)
-
形式描述:
- 数据集D中包含n个d维样本,构成d*n的样本矩阵X
- 目标空间为d’维,d’<d,在目标空间中有d’*n的目标矩阵Y
- 降维方法即建立一个映射f,以实现Y=f(X)
- 映射f遵从的核心规则:在原始d维空间中相似的样本在目标d’维空间中依旧保持相似
-
方法分类:
-
特征选择:
- 认为对高维样本来说,其中只有部分属性对当前目标任务有用,剩余特征均为冗余
- 因此特征选择工作就是在特征空间中寻找到最优的特征子集,以这部分特征构建新的样本集(样本空间)
- 可以理解为在原始d维空间中选择d’个基向量保留,张成d’维子空间
- 特征选择方法具体实现可参考博客:[特征选择与降维][https://blog.csdn.net/whether_you/article/details/81080281]
-
特征提取:
-
在原始d维空间中,构建出与原来基向量不同的d’个正交基向量,张成d’维子空间
-
与特征选择不同的是,该方法中的属性值与原样本中的属性无可见关联
-
线性方法:
-
通过线性变换实现样本维度变换,可表示为矩阵乘法形式:
Y = W T X Y=W^TX Y=WTX -
无监督方法:
- 主成分分析(PCA)
- 局部保留投影法(LPP)
-
有监督方法:
- 线性判别分析(LDA)
-
-
非线性方法:
- 无法仅通过线性变换完成
- t-SNE
-
-
参考资料:
【1】《机器学习》周志华
【2】[维度灾难][https://zhuanlan.zhihu.com/p/27488363]
【3】[特征选择与降维][https://blog.csdn.net/whether_you/article/details/81080281]