机器学习面试问题整理(5) — 正则项&损失函数 &优化

本文介绍了机器学习面试中常见的问题,包括L1和L2正则化的区别与作用,L1正则如何压缩系数至0,数据归一化的原因和方式,交叉熵损失函数的应用,以及过拟合的识别与解决方法。此外,还探讨了信息熵、联合熵、条件熵和互信息等相关概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

基本推导和理论还是以看李航老师的《统计学习方法》为主。
各种算法的原理,推荐理解到可以手撕的程度。
以下为通过网络资源搜集整理的一些问题及答案,准备的有些仓促,没能记录所有资料的来源(侵删)

L1和L2的区别? 为什么L2能提升泛化能力(减少预测误差,防止过拟合?)

L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0,这里是有很大的区别的哦。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。为什么越小的参数说明模型越简单?我也不懂,我的理解是:限制了参数很小,实际上就限制了多项式某些分量的影响很小

L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已

L1正则化有哪些好处

• L1与L2的定义 https://getpocket.com/a/read/2314095436
• L1&L2的差别
• 使用场景

L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节

https://www.zhihu.com/question/37096933
https://www.jianshu.com/p/7b35bbb3478f

为什么要做数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值