1、贝叶斯公式:
贝叶斯公式部分可参考文章:一个模型记忆全概率公式和贝叶斯公式_全概率公式和贝叶斯公式图解-CSDN博客
2、朴素贝叶斯模型:
对于如下贝叶斯公式 :
在机器学习的具体场景中,可以有这样的设定(拿西瓜书中根据特征判断好瓜坏瓜的例子来说):即各种标签,如“好瓜”和“坏瓜”,B即各种特征,如“色泽”,“硬度”等。
在使用朴素贝叶斯模型时,我们要做的任务是:根据特征判断这是好瓜还是坏瓜。
假设现在的特征只用两个,即:色泽和硬度。那么模型需要进行判断的就是下面两个概率之间的大小:
如果P(好瓜|色泽,硬度)>P(坏瓜|色泽,硬度),那么模型就认为这是好瓜,反之则是坏瓜。
P(好瓜|色泽,硬度)称为后验概率,该后验概率是不能根据数据集直接计算得到的,但注意到等式的右边的式子,他们的分母相同,所以可以将后验概率的比较转化为:
P(色泽,硬度|好瓜)×P(好瓜)和P(色泽,硬度|坏瓜)×P(坏瓜)之间的比较。
而这个式子中,P(色泽,硬度|好瓜)和P(好瓜)分别称为类条件概率(也可称为似然性)和先验概率,他们是可以根据数据集进行求得的。这也就是用朴素贝叶斯模型进行概率类别预测的核心。
3、朴素贝叶斯模型的重要假设
对于类条件概率P(色泽,硬度|好瓜),当特征数比较少时,根据概率论中的链式法则,是比较好计算的,但是当特征变多(这也是机器学习中更常见的情形),那么这个概率计算就会非常复杂。所以,朴素贝叶斯模型有一个非常重要的假设,就是假设特征之间是相互独立的,那么这个类条件概率公式就可以转化为:
推广到更多特征,那么存在公式:
这里的c就是类别,x就是特征。
这个重要的假设,也是朴素贝叶斯模型称作“朴素”的原因。