浅谈贝叶斯估计与极大似然估计

本文深入探讨了极大似然估计与贝叶斯估计的基本原理及其在机器学习中的应用。通过具体实例,对比了两种方法在参数估计上的不同哲学观点,并详细介绍了极大似然估计的数学推导过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        在机器学习当中,我们会经常遇到有关朴素贝叶斯的知识。其出现频率可以说是占据ML的半壁江山。作为热门的概率论的分类方法,有必要对其深入了解。加之前不久的面试笔试部分,有一道简述极大似然和贝叶斯的原理与区别的问题。因此更加加剧了我学习写下这篇文章的想法。下面算是我对知识的整理及认识,不算面面俱到,但也体现了我的整体思路,欢迎读者讨论或指正。

极大似然估计与贝叶斯估计的区别
贝叶斯公式

P(wx)=P(xw)P(w)P(x)

这里解释一下符号的含义:
x :已知条件或者已有的数据
w:条件样本,个人理解在某个 x 样本中,w为可能存在的行为或者样本。(注意,在极大似然估计中也可理解为要估计的参数,因为两种方法对待w的态度不同,后面会有介绍)
P(w) :先验概率
P(x) :数据的分布,即某个数据样本在整体出现的概率
P(wx) :后验概率
P(xw) :条件概率或极大似然函数
        关于理解先验和后验两者的概念,这里直接给出链接。里面的例子足够解释其关系。总体概括就是 P(BA) 以后者A为前提下发生B的概率,反之亦然。
参考链接: https://www.zhihu.com/question/19725590
        贝叶斯估计根据先验概率与已知条件概率(似然函数)计算后验概率,其参数服从某种概率,当数据量较小时,以先验概率作为提高后验概率的基准。
        贝叶斯估计认为事物依据概率分布的,所以在预测某样本数据时,可以依据概率产生的“经验”。无论其是否可靠,这种“经验”都会被作为已知条件。
        相反,极大似然估计靠已有的数据样本从而推测出事物的最有可能的分布概率。所以在数据样本量大的情况下,这种概率更为可靠。两种思想对于概率(在此称其为参数)的态度不同。 极大似然估计就是假设一个参数 θ ,然后根据数据来求出这个 θ 而贝叶斯估计的难点在于 p(θ) 需要人为设定。

极大似然估计模型推导
        已知样本集 D={x1,x2,,xn} ,对于样本集的理解有如下例子:假设有一个装了黑色和灰色石头的罐子,从罐子里面每次取一颗石头,取3次,得到2次灰色1次黑色,假设条件独立。则有 n=3 ;记灰色石子为G,黑色为B,则有 D={GGB} ;取到灰色石子概率为 θ ,则取到黑色 1θ
        我们有 P(Dθ) 似然函数,则求最大的 θ ,因此称之为极大似然估计,有公式:

argmaxθP(Dθ)

        又有:
P(Dθ)=i=1nP(xiθ)

        当 P(Dθ) 的导数等于0的情况下,可以得到最大的 θ 。因此上面的例子就有:
P(Dθ)=P(x1θ)P(x2θ)P(x3θ)=θθ1θ
求导:
2θ3θ2=0
得到从罐子中取出石头颜色为灰色的概率 2/3

        对于较难求导的似然函数,我们可以选择对数似然函数,根据对数运算可得:

lni=1nP(xiθ)=i=1nlnP(xiθ)
从而对右侧进行求导。

        网上还有提及到样本成正态分布的对数似然函数推导公式,在此不做列举了。只是在对于样本的方差估计上分无偏估计(unbiased estimator)与有偏估计(biased estimator)。因此,样本方差计算

1ni=1n(Xiμ)2

当不知道 μ 的去情况下,可以使用样本平均值 X¯¯¯ 来计算:

1n1i=1n(XiX¯¯¯)2

参考链接:https://www.zhihu.com/question/20099757
链接很好的回答了其中无偏估计比有偏估计更符合常识的原因。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值