机器学习学习笔记——贝叶斯分类器

最新推荐文章于 2025-02-26 21:56:42 发布

原创最新推荐文章于 2025-02-26 21:56:42 发布 · 569 阅读

1 ·

CC 4.0 BY-SA版权

机器学习学习笔记专栏收录该内容

15 篇文章

订阅专栏

本文介绍了贝叶斯决策论的基本原理，包括判别式与生成式模型的区别、极大似然估计方法、朴素贝叶斯分类器的工作原理及应用案例，并讨论了其优缺点。此外还介绍了半朴素贝叶斯分类器的不同类型以及贝叶斯网的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法，对于分类任务，在所有相关概率都已知的理想情形下，贝叶斯决策论基于这些概率和误判损失选择最有类别标记。

判别式模型：给定样本 $x$ ，可通过直接建模 $P(c|x)$ 来预测，如决策树、神经网络、SVM；

生成式模型：对联合概率分布 $P(x,c)$ 建模，然后再得到 $P(c|x)$ ，如贝叶斯分类器。

基于贝叶斯定理，可写为：

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}$

其中 $P(c)$ 是类先验概率； $P(x|c)$ 是样本相对于类标记 $c$ 的类条件概率，或称似然； $P(x)$ 是用于归一化的证据因子，对于给定样本，证据因子与类标记无关。贝叶斯决策论核心思想：选择具有较高概率的决策。

λij是将一个真实标记cj的样本误分类为ci所产生的损失，条件风险：；

为最小化总体风险，只需选择使条件风险最小的类别标记：；

具体情况如果误判损失为0/1损失，此时条件风险为：；

则只需选择P(c|x)最大的类别标记：；

2.极大似然估计

假设类条件概率具有确定的形式并被参数向量唯一确定，则任务就是利用训练集估计参数；

假设样本是独立同分布的，则参数对于数据集的似然：；

通常使用对数似然，避免下溢：；

此时的参数极大似然估计：；

3.朴素贝叶斯分类器

朴素贝叶斯分类器表达式：

$h_{nb}(x)=\mathop{argmax}_{c\in\mathcal Y}P(c)\prod^{d}_{i=1}P(x_i|c)$

对连续属性可考虑概率密度函数，假定 $p(x_i | c)=\mathcal N\sim(\mu_{c,i},\sigma^2_{c,i})$ ，其中 $\mu_{c,i}$ 和 $\sigma^2_{c,i}$ 分别是第 $c$ 类样本在第 $i$ 个属性上取值的均值和方差，则有：

$p(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp(-\frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c,i}})$

为避免训练集中某个类属性没有出现过，从而导致连乘结果为0，在估计概率是通常使用拉普拉斯修正进行平滑处理。令 $N$ 表示训练集 $D$ 中可能的类别数， $N_i$ 表示第 $i$ 个属性可能的取值数，则修改为：

$\hat{P}(c)=\frac{\left|D_c\right|+1}{\left|D\right|+N}\\ \hat{P}(x_i|c)=\frac{\left|D_{c,x_i}\right|+1}{\left|D_c\right|+N_i}$

4.半朴素贝叶斯分类器

独立依赖估计：；

SPODE：假设所有属性依赖同一个属性，称为超父；

TAN：基于最大带权生成树算法，通过条件互信息构建完全图；

条件互信息：；

AODE：尝试将每一个属性作为父类，构建SPODE，。

5.贝叶斯网

贝叶斯网也成为信念网，借助有向无环图可换属性之间的依赖关系，并用条件概率表来描述属性的联合概率分布；

1.结构

贝叶斯网假设每个属性与他的非后裔属性独立，于是将属性的联合概率分布定义为：

三种依赖关系：同父结构、V型结构、顺序结构；

.学习

实际中不知道网络结构，根据训练集找到恰当网络结构，需要评分函数：；

3.推断

吉布斯采样，随机采样法；

6.朴素贝叶斯分类器的优缺点

优点：在数据较少的情况下仍然有效，可以处理多类别问题。

缺点：对于输入数据的准备方式较为敏感。

使用数据类型：标称型数据。

7.总结

第七章贝叶斯分类器，这一章开始涉及概率，需要一点概率的基础，一边学习一边查询公式，并且自己推导一遍会有更深的理解，再结合书上例子过一遍，后面的贝叶斯网和EM算法暂时没太深入，等以后需要的时候再做补充。

参考文献

[1] Peter Harringtom. 机器学习实战[M].北京, 人民邮电出版社, 2013.

[2] 周志华. 机器学习[M].北京，清华大学出版社，2016.。

附录

西瓜数据3.0

编号	色泽	根蒂	敲声	纹理	脐部	触感	密度	含糖率	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	0.697	0.46	1
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	0.744	0.376	1
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	0.634	0.264	1
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	0.608	0.318	1
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	0.556	0.215	1
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	0.403	0.237	1
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	0.481	0.149	1
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	0.437	0.211	1
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	0.666	0.091	0
10	青绿	硬挺	清脆	清晰	平坦	软粘	0.243	0.267	0
11	浅白	硬挺	清脆	模糊	平坦	硬滑	0.245	0.057	0
12	浅白	蜷缩	浊响	模糊	平坦	软粘	0.343	0.099	0
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	0.639	0.161	0
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	0.657	0.198	0
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	0.36	0.37	0
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	0.593	0.042	0
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	0.719	0.103	0