交叉熵的推导
1.最大似然
何为最大似然?哲学上有句话叫做“存在就是合理的”,最大似然的意思是“存在就是最合理的”。具体来说,如果事件XXX的概率分布为p(X)p(X)p(X),如果一次观测中具体观测到的值分别为X1,X2,…,XnX_1,X_2,…,X_nX1,X2,…,Xn,并假设它们是相互独立,那么
P=∏i=1np(Xi)(1) \mathcal P=\prod_{i=1}^np(X_i) \tag{1} P=i=1∏np(Xi)(1)
是最大的。如果p(X)p(X)p(X)是一个带有参数θ\thetaθ的概率分布式pθ(X)p_{\theta}(X)pθ(X),那么我们应当想办法选择θ\thetaθ,使得L\mathcal LL最大化,即
θ=argmaxθ∏i=1npθ(Xi)(2) θ={\underset {\theta} {argmax}} \prod_{i=1}^np_{\theta}(X_i) \tag{2} θ=θargmax