极大似然与贝叶斯

本文介绍了极大似然估计与贝叶斯估计在机器学习中的概念和区别。最大似然估计属于频率派,目标是求使数据发生的概率最大的参数,而贝叶斯估计属于贝叶斯派,考虑参数的先验分布,通过后验概率最大化进行估计。当先验概率为均匀分布时,两者等价。贝叶斯派的正则化对应于不同分布,如高斯分布对应L2正则化,拉普拉斯分布对应L1正则化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

7/16

介绍一下贝叶斯、最大似然估计(东南大学,2021)

答:

(1)最大似然估计(MLE):从字面理解,即估计出最像这样特征的参数。其属于频率派,认为参数为一个固定的值。目标是求未知参数使数据发生的概率最大,根据已知样本得出每种情况发生的概率,将他们相乘,maxP(x|θ);通常通过取对数将连乘转为连加,即最大似然转为对数似然求解。在样本很少时,会发生过拟合,这时频率派会加入正则化来解决。

(2)贝叶斯估计(MAP):从字面理解,即估计出最像这样特征的参数分布。属于贝叶斯派,认为参数符合一个分布。目标是求数据发生的情况下,哪一个参数的概率最大(即最大化后验概率)maxP(θ|x);贝叶斯公式:P(θ|x)=P(x|θ)P(θ)/P(x),其中P(θ)为先验概率,P(x|θ)为似然函数,当θ符合均匀分布时,则等价于最大似然估计;当θ符合高斯分布时,则等价于最大似然估计+L2正则化;当θ符合拉普拉斯分布时,则等价于最大似然估计+L1正则化。

两者相差了一个先验概率,本质上,先验概率对应的就是正则化项。在神经网络的理解中,使用贝叶斯派去理解更容易:w符合某个分布,w的初始值(通过先验知识设定的置信度),即先验概率,然后通过已知的样本数据,得到后验概率。然后不断修正置信度,最终得到一个最符合已知数据和先验知识的的w的值。

具体介绍

极大似然估计与贝叶斯估计:

“概率”:特定环境下,某件事发生的概率。

“似然”:基于已发生的结果推断产生这个结果的可能环境参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值