基于最小化分类错误率的贝叶斯最优分类器的求解中,两次使用了 max \max max,一次是极大似然法【西瓜书式(7.11)】,另一次是贝叶斯决策【西瓜书式(7.6)】,其意义各不相同。
极大似然法
由7.1 贝叶斯决策论知,最小化分类错误率的贝叶斯最优分类器为
h
∗
(
x
)
=
arg
min
c
∈
Y
(
1
−
P
(
c
∣
x
)
)
=
arg
max
c
∈
Y
P
(
c
∣
x
)
=
arg
max
c
i
,
(
i
=
1
,
2
,
⋯
,
N
)
P
(
c
i
∣
x
)
\begin{align} h^*(\boldsymbol{x}) & =\mathop{\arg\min}\limits_{c\in \mathcal{Y}}(1-P(c\,|\,\boldsymbol{x}))\notag \\ & =\mathop{\arg\max}\limits_{c\in \mathcal{Y}}P(c\,|\,\boldsymbol{x})\notag \\ & =\mathop{\arg\max}\limits_{c_i,(i=1,2,\cdots,N)}P(c_i\,|\,\boldsymbol{x}) \tag{7.13} \end{align}
h∗(x)=c∈Yargmin(1−P(c∣x))=c∈YargmaxP(c∣x)=ci,(i=1,2,⋯,N)argmaxP(ci∣x)(7.13)
通过如下式(7.17)
P
(
c
∣
x
)
=
P
(
c
)
P
(
x
∣
c
)
P
(
x
)
\begin{align} P(c\,|\,\boldsymbol{x})=\frac{P(c)P(\boldsymbol{x}\,|\,c)}{P(\boldsymbol{x})} \tag{7.17} \end{align}
P(c∣x)=P(x)P(c)P(x∣c)(7.17)
即
后验
=
先验
⋅
似然
证据
\begin{align} \text{后验}=\frac{\text{先验}\cdot\text{似然}}{\text{证据}} \tag{7.17a} \end{align}
后验=证据先验⋅似然(7.17a)
来求式(7.13)时,通常“先验”和“证据”已定,问题归结于求极大“似然”(
P
(
x
∣
c
)
P(\boldsymbol{x}\,|\,c)
P(x∣c))。
先将“似然”参数化,即指定它具有某种形式
f
f
f(由领域知识得到)并含有某待定参数
θ
c
{\theta}_c
θc,即
P
(
x
∣
c
)
=
f
(
x
,
θ
c
)
\begin{align} P(\boldsymbol{x}\,|\,c)=f(\boldsymbol{x},{\theta}_c ) \tag{7.24} \end{align}
P(x∣c)=f(x,θc)(7.24)
式(7.24)中,标记变量
c
c
c与参数变量
θ
c
{\theta}_c
θc是对应的,故该条件概率可以换一种写法:
P
(
x
∣
c
)
=
P
(
x
∣
θ
c
)
\begin{align} P(\boldsymbol{x}\,|\,c)=P(\boldsymbol{x}\,|\,{\theta}_c) \tag{7.25} \end{align}
P(x∣c)=P(x∣θc)(7.25)
设数据集
D
D
D中的
c
c
c类样本构成子集
D
c
=
{
x
1
c
,
x
2
c
,
⋯
,
x
k
c
}
D_c=\{\boldsymbol{x}_1^c,\boldsymbol{x}_2^c,\cdots,\boldsymbol{x}_k^c\}
Dc={x1c,x2c,⋯,xkc},则
P
(
D
c
∣
θ
c
)
=
P
(
(
x
1
c
,
x
2
c
,
⋯
,
x
k
c
)
∣
θ
c
)
=
P
(
x
1
c
∣
θ
c
)
⋅
P
(
x
2
c
∣
θ
c
)
⋅
⋯
P
(
x
k
c
∣
θ
c
)
=
∏
x
∈
D
c
P
(
x
∣
θ
c
)
\begin{align} P(D_c\,|\,{\theta}_c) & =P((\boldsymbol{x}_1^c,\boldsymbol{x}_2^c,\cdots,\boldsymbol{x}_k^c)\,|\,{\theta}_c)\notag \\ & =P(\boldsymbol{x}_1^c\,|\,{\theta}_c)\cdot P(\boldsymbol{x}_2^c\,|\,{\theta}_c)\cdot\cdots P(\boldsymbol{x}_k^c\,|\,{\theta}_c)\notag \\ & =\mathop{\prod }\limits_{\boldsymbol{x} \in D_c}P(\boldsymbol{x}\,|\,{\theta}_c) \tag{7.26} \end{align}
P(Dc∣θc)=P((x1c,x2c,⋯,xkc)∣θc)=P(x1c∣θc)⋅P(x2c∣θc)⋅⋯P(xkc∣θc)=x∈Dc∏P(x∣θc)(7.26)
取对数将
∏
\prod
∏变为
∑
\sum
∑,即得到【西瓜书式(7.10)】,其中,“
L
L
(
θ
c
)
\mathrm{LL}({\theta}_c)
LL(θc)”的“双
L
L
L”是指log -likelihood(对数似然)。
注意:极大(对数)似然的估计是与类 c c c相关的,即参数是带下标的,这就是说每个类都有其参数,极大似然对这些参数逐一估计, θ c {\theta}_c θc的估计为 θ ^ c \hat{\theta}_c θ^c。
综上,得到基于最小化分类错误率的贝叶斯最优分类器的求解步骤:
(1)对每个类别 c c c子集 D c D_c Dc,利用极大似然法(MLE):式(7.26)、【西瓜书式(7.10)】、【西瓜书式(7.11)】估计出参数 θ ^ c \hat{\theta}_c θ^c;
(2)代入式(7.24),求得似然概率 P ( x ∣ c ) P(\boldsymbol{x}\,|\,c) P(x∣c);
(3)代入式(7.17),求得后验概率 P ( c ∣ x ) P(c\,|\,\boldsymbol{x}) P(c∣x);
(4)各类别的 P ( c i ∣ x ) , i = 1 , 2 , ⋯ , N P(c_i\,|\,\boldsymbol{x}),i=1,2,\cdots,N P(ci∣x),i=1,2,⋯,N代入【西瓜书式(7.6)】(即用式(7.13)进行后验概率比较,取最大的)即得到 h ∗ ( x ) h^*(\boldsymbol{x}) h∗(x)。
从这个步骤中可以看出,它使用了两次 max \max max,一次是极大似然法【西瓜书式(7.11)】,另一次是贝叶斯决策【西瓜书式(7.6)】,其意义各不相同。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:7.2 再谈线性判别分析(高斯分布下的线性判别分析LDA实现了贝叶斯分类器)
下一篇:7.4 朴素贝叶斯分类器与半朴素贝叶斯分类器(样本独立?属性独立?类条件属性独立?)