贝叶斯分类器是传统机器学习模型的一种,是在概率框架下利用训练集D观测估计样本属性(feature)与分类结果之间的后验概率关系。后验概率,就是在观测过样本的属性(feature)之后对其分类情况的概率分布(比如0.3的概率是正类,0.7的概率是反类)。贝叶斯分类器直观看就是一个由在样本集D上学习到的后验概率和likelihood组成的计算公式,在测试阶段,将输入测试样本的feature带入可以计算出各类的分类confidence(confidence即后验)。
1. 问题参数:
- X是特征、是属性、是对待分类物体的观测与描述;X属于{x1:有无胡须,x2:有无喉结,x3:是否穿了裙子,。。。}
- Y是分类结果;Y属于{0:男,1:女}
2. 问题描述:给定一张图片,图中有一个人,现在做一个二分类;
3. 四大概率:
- 先验 P(Y):P(0)= 0.5,先于看到图片就判断分类,反映的是被分类事物的自然规律,可有多次试验用大数定律逼近;
- Evidence(依据) P(X):P(x1=1)= 0.2,P(X)是对于各特征的一个分布,与类别Y无关,是各特征自然出现的概率(即P(x1=1)= 0.2是指,没看到此人但估计其有胡子的概率是0.2);顾名思义,这些特征是用来进行分类的判断依据、证据;
- 后验 P(Y|X):P(0|x1=0)= 0.7,看到图片之“后”,具有图中此人所展示的这些特征的一个人是男是女的概率(P(0|x1=0)= 0.7即看到一个有胡子的这个人是男人的概率是0.7);