文章目录
概述
基本推导和理论还是以看李航老师的《统计学习方法》为主。
各种算法的原理,推荐理解到可以手撕的程度。
以下为通过网络资源搜集整理的一些问题及答案,准备的有些仓促,没能记录所有资料的来源(侵删)
L1和L2的区别? 为什么L2能提升泛化能力(减少预测误差,防止过拟合?)
L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0,这里是有很大的区别的哦。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。为什么越小的参数说明模型越简单?我也不懂,我的理解是:限制了参数很小,实际上就限制了多项式某些分量的影响很小
L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已
L1正则化有哪些好处
• L1与L2的定义 https://getpocket.com/a/read/2314095436
• L1&L2的差别
• 使用场景
L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节
https://www.zhihu.com/question/37096933
https://www.jianshu.com/p/7b35bbb3478f