机器学习学习笔记——贝叶斯分类器

本文介绍了贝叶斯决策论的基本原理,包括判别式与生成式模型的区别、极大似然估计方法、朴素贝叶斯分类器的工作原理及应用案例,并讨论了其优缺点。此外还介绍了半朴素贝叶斯分类器的不同类型以及贝叶斯网的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法,对于分类任务,在所有相关概率都已知的理想情形下,贝叶斯决策论基于这些概率和误判损失选择最有类别标记。

判别式模型:给定样本x,可通过直接建模P(c|x)来预测,如决策树、神经网络、SVM;

生成式模型:对联合概率分布P(x,c)建模,然后再得到P(c|x),如贝叶斯分类器。

基于贝叶斯定理,​可写为:

                                                                P(c|x)=\frac{P(c)P(x|c)}{P(x)}

其中​P(c)是类先验概率;P(x|c)​是样本​相对于类标记c​的类条件概率,或称似然;P(x)​是用于归一化的证据因子,对于给定样本,证据因子与类标记无关。贝叶斯决策论核心思想:选择具有较高概率的决策。


λij是将一个真实标记cj的样本误分类为ci所产生的损失,条件风险:

为最小化总体风险,只需选择使条件风险最小的类别标记:

具体情况如果误判损失为0/1损失,此时条件风险为:

则只需选择P(c|x)最大的类别标记:

2.极大似然估计

假设类条件概率具有确定的形式并被参数向量唯一确定,则任务就是利用训练集估计参数;

假设样本是独立同分布的,则参数对于数据集的似然:

通常使用对数似然,避免下溢:

此时的参数极大似然估计:

3.朴素贝叶斯分类器

朴素贝叶斯分类器表达式:

                                                                   h_{nb}(x)=\mathop{argmax}_{c\in\mathcal Y}P(c)\prod^{d}_{i=1}P(x_i|c)

对连续属性可考虑概率密度函数,假定p(x_i | c)=\mathcal N\sim(\mu_{c,i},\sigma^2_{c,i})​,其中​\mu_{c,i}和​\sigma^2_{c,i}分别是第​c类样本在第i​个属性上取值的均值和方差,则有:

                                                       p(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp(-\frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c,i}})

为避免训练集中某个类属性没有出现过,从而导致连乘结果为0,在估计概率是通常使用拉普拉斯修正进行平滑处理。令​N表示训练集​D中可能的类别数,N_i​表示第​i个属性可能的取值数,则修改为:

                                                                    \hat{P}(c)=\frac{\left|D_c\right|+1}{\left|D\right|+N}\\ \hat{P}(x_i|c)=\frac{\left|D_{c,x_i}\right|+1}{\left|D_c\right|+N_i}

4.半朴素贝叶斯分类器

独立依赖估计:

SPODE:假设所有属性依赖同一个属性,称为超父;

TAN:基于最大带权生成树算法,通过条件互信息构建完全图;

条件互信息:

AODE:尝试将每一个属性作为父类,构建SPODE,

5.贝叶斯网

贝叶斯网也成为信念网,借助有向无环图可换属性之间的依赖关系,并用条件概率表来描述属性的联合概率分布;

1.结构

贝叶斯网假设每个属性与他的非后裔属性独立,于是将属性的联合概率分布定义为:

                                     

三种依赖关系:同父结构、V型结构、顺序结构;

.学习

实际中不知道网络结构,根据训练集找到恰当网络结构,需要评分函数:

3.推断

吉布斯采样,随机采样法;

6.朴素贝叶斯分类器的优缺点

优点:在数据较少的情况下仍然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感。

使用数据类型:标称型数据。

7.总结

第七章贝叶斯分类器,这一章开始涉及概率,需要一点概率的基础,一边学习一边查询公式,并且自己推导一遍会有更深的理解,再结合书上例子过一遍,后面的贝叶斯网和EM算法暂时没太深入,等以后需要的时候再做补充。

参考文献

[1] Peter Harringtom. 机器学习实战[M].北京, 人民邮电出版社, 2013.

[2] 周志华. 机器学习[M].北京,清华大学出版社,2016.。

附录

西瓜数据3.0

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
1青绿蜷缩浊响清晰凹陷硬滑0.6970.461
2乌黑蜷缩沉闷清晰凹陷硬滑0.7440.3761
3乌黑蜷缩浊响清晰凹陷硬滑0.6340.2641
4青绿蜷缩沉闷清晰凹陷硬滑0.6080.3181
5浅白蜷缩浊响清晰凹陷硬滑0.5560.2151
6青绿稍蜷浊响清晰稍凹软粘0.4030.2371
7乌黑稍蜷浊响稍糊稍凹软粘0.4810.1491
8乌黑稍蜷浊响清晰稍凹硬滑0.4370.2111
9乌黑稍蜷沉闷稍糊稍凹硬滑0.6660.0910
10青绿硬挺清脆清晰平坦软粘0.2430.2670
11浅白硬挺清脆模糊平坦硬滑0.2450.0570
12浅白蜷缩浊响模糊平坦软粘0.3430.0990
13青绿稍蜷浊响稍糊凹陷硬滑0.6390.1610
14浅白稍蜷沉闷稍糊凹陷硬滑0.6570.1980
15乌黑稍蜷浊响清晰稍凹软粘0.360.370
16浅白蜷缩浊响模糊平坦硬滑0.5930.0420
17青绿蜷缩沉闷稍糊稍凹硬滑0.7190.1030

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值