【数学】多元高斯分布的熵

作者: 引线小白-本文永久链接:http://www.limoncc.com/概率论/2017-01-10-多元高斯分布的熵/
知识共享许可协议: 本博客采用署名-非商业-禁止演绎4.0国际许可证

一、若干引理

1、引理1.0

1、连续随机向量函数

考虑一般情况,我们有随机向量 x ∼ f ( x ) \displaystyle \bm{x}\sim f(\bm{x}) xf(x)。现在有函数 y = g ( x ) : R k ↦ R d \displaystyle \bm{y}=\bm{g}(\bm{x}):\mathbb{R}^k\mapsto\mathbb{R}^d y=g(x):RkRd。即有:
y = g ( x ) \begin{aligned} \bm{y}=\bm{g}(\bm{x}) \end{aligned} y=g(x)
若上述方程有唯一解:
x = h ( y ) \begin{aligned} \bm{x}=\bm{h}(\bm{y}) \end{aligned} x=h(y)
则称函数 x = h ( y ) \displaystyle \bm{x}=\bm{h}(\bm{y}) x=h(y) y = g ( x ) \displaystyle \bm{y}=\bm{g}(\bm{x}) y=g(x)的反函数。同时我们有雅可比行列式:
J = d e t [ ∂ x ∂ y T ] \begin{aligned} \bm{J}=\mathrm{det}\left[\frac{\partial \bm{x}}{\partial \bm{y}^\text{T}}\right] \end{aligned} J=det[yTx]

2、变量代换引理

【定理1.0】
对于连续随机向量 x ∼ f ( x ) \displaystyle \bm{x}\sim f(\bm{x}) xf(x),函数 y = g ( x ) \displaystyle \bm{y}=\bm{g}(\bm{x}) y=g(x)满足下列条件:
1、 y = g ( x ) \displaystyle \bm{y}=\bm{g}(\bm{x}) y=g(x)有唯一反函数 x = h ( y ) \displaystyle \bm{x}=\bm{h}(\bm{y}) x=h(y)
2、 y = g ( x ) \displaystyle \bm{y}=\bm{g}(\bm{x}) y=g(x) x = h ( y ) \displaystyle \bm{x}=\bm{h}(\bm{y}) x=h(y)连续
3、 J = d e t [ ∂ x ∂ y T ] \displaystyle \bm{J}=\mathrm{det}\left[\frac{\partial \bm{x}}{\partial \bm{y}^\text{T}}\right] J=det[yTx]存在而且连续
那么
f ( y ) = { f x [ h ( y ) ] × ∣   J ∣  若  y ∈ G   0  若  y ∉ G \begin{aligned} f(\bm{y})=\left\{\begin{array}{l}f_\bm{x}\left[\bm{h}\left(\bm{y}\right)\right]\times\left|\,\bm{J}\right|&\text{ 若 }\bm{y}\in G \\\ 0 &\text{ 若 }\bm{y}\notin G \end{array}\right. \end{aligned} f(y)={fx[h(y)]×J 0  yG  y/G
其中 G = { y ∣ y = g ( x ) ,   x ∈ R k } \displaystyle G=\{\bm{y}\mid \bm{y}=\bm{g(\bm{x})},\,\bm{x}\in \mathbb{R}^k\} G={yy=g(x),xRk} ∣   J ∣ \displaystyle \left|\,\bm{J}\right| J是雅可比行列式的绝对值,请勿与行列式符号混淆

证明:

为了区分随机变量与随机变量实例,我们定义 ξ \displaystyle \bm{\xi} ξ是随机向量,而 x \displaystyle \bm{x} x是随机向量 ξ \displaystyle \bm{\xi} ξ的实例; η \displaystyle \bm{\eta} η是随机向量,而 y \displaystyle \bm{y} y是随机向量 η \displaystyle \bm{\eta} η的实例
y ∉ G \displaystyle \bm{y}\notin G y/G时, 显然有 f η ( y ) = 0 \displaystyle f_\bm{\eta}(\bm{y})=0 fη(y)=0
y ∈ G \displaystyle \bm{y}\in G yG时,有:
F η ( y ) = P ( η ⩽ y ) = ∫ A f ξ ( x ) d x \begin{aligned} F_ \bm{\eta}(\bm{y})=P(\bm{\eta}\leqslant \bm{y})=\int_A f_ \bm{\xi}(\bm{x})\mathrm{d}\bm{x} \end{aligned} Fη(y)=P(ηy)=Afξ(x)dx
其中: A = ⋂ j = 1 d { x ∣ g j ( x ) ⩽ y j } \displaystyle A=\bigcap_{j=1}^{d}\{\bm{x}\mid g_j(\bm{x})\leqslant y_j\} A=j=1d{xgj(x)yj},在上式中换元: x = h ( y ) \displaystyle \bm{x}=\bm{h}(\bm{y}) x=h(y)得:
F η ( y ) = ∫ C I G ( y ) × f ξ [ h ( y ) ] ⋅ ∣ J ∣ d y \begin{aligned} F_ \bm{\eta}(\bm{y})=\int_C\mathbb{I}_G(\bm{y})\times f_ \bm{\xi}\left[\bm{h}(\bm{y})\right]\cdot\left|\bm{J}\right|\mathrm{d}\bm{y} \end{aligned} Fη(y)=CIG(y)×fξ[h(y)]Jdy
其中 C = ∏ j = 1 d ( − ∞ , y j ] \displaystyle C=\prod_{j=1}^{d}(-\infty,y_j] C=j=1d(,yj] I G ( y ) \displaystyle \mathbb{I}_G(\bm{y}) IG(y) G \displaystyle G G的示性函数。由此当 y ∈ G \displaystyle \bm{y}\in G yG时:
f η ( y ) = f ξ [ h ( y ) ] × ∣   J ∣ \begin{aligned} f_ \bm{\eta}(\bm{y})=f_\bm{\xi}\left[\bm{h}\left(\bm{y}\right)\right]\times\left|\,\bm{J}\right| \end{aligned} fη(y)=fξ[h(y)]×J
证毕。
其中证明中最关键的地方在于: A → C \displaystyle A\to C AC的转变中,函数增减涉及积分方向的问题。这一问题的清晰说明较为繁琐,可以参考《数学分析原理》229页定理10.9以及微分形式的积分。

2、引理2.0

定义方阵的幂(可以是分数) A n = U Λ n U T \displaystyle \bm{A}^n=\bm{U}\bm{\Lambda}^n\bm{U}^\text{T} An=UΛnUT。其中 A = U Λ U T \displaystyle \bm{A}=\bm{U}\bm{\Lambda}\bm{U}^\text{T} A=UΛUT是约当分解或者叫谱分解,简单说就是对角化。

1、马哈拉诺比斯变换引理
我们有任意高斯分布 x ∼ N ( μ , Σ ) \displaystyle \bm{x}\sim\mathcal{N}\left(\bm{\mu},\bm{\varSigma}\right) xN(μ,Σ)。我们称 y = Σ − 1 2 [ x − μ ] \displaystyle \bm{y}=\bm{\varSigma}^{-\frac{1}{2}}\left[\bm{x}-\bm{\mu}\right] y=Σ21[xμ]为马哈拉诺比斯变换。其中
y ∼ N ( 0 , I k ) \begin{aligned} \bm{y}\sim\mathcal{N}\left(\bm{0},\bm{I}_k\right) \end{aligned} yN(0,Ik)
也就是说 y i \displaystyle y_i yi是标准高斯分布 N ( 0 , 1 ) \displaystyle \mathcal{N}\left(0,1\right) N(0,1)

证明:
知道:
p ( x ) = ( 2 π ) − k 2 ∣ Σ ∣ − 1 2 exp ⁡ [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] \begin{aligned} p(\bm{x})=(2\pi)^{-\frac{k}{2}}\left|\bm{\varSigma}\right|^{-\frac{1}{2}}\exp\left[-\frac{1}{2}(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\varSigma}^{-1}(\bm{x}-\bm{\mu}) \right] \end{aligned} p(x)=(2π)2kΣ21exp[21(xμ)TΣ1(xμ)]
同时有: x = Σ 1 2 y + μ \displaystyle \bm{x}=\bm{\varSigma}^{\frac{1}{2}}\bm{y}+\bm{\mu} x=Σ21y+μ J = d e t [ ∂ x ∂ y T ] = ∣ Σ ∣ 1 2 \displaystyle \bm{J}=\mathrm{det}\left[\frac{\partial \bm{x}}{\partial \bm{y}^\text{T}}\right]=\left|\bm{\varSigma}\right|^{\frac{1}{2}} J=det[yTx]=Σ21
有变量代换定理有:
p ( y ) = ( 2 π ) − k 2 exp ⁡ [ − 1 2 y T y ] \begin{aligned} p(\bm{y})=(2\pi)^{-\frac{k}{2}}\exp \left[-\frac{1}{2}\bm{y}^\text{T}\bm{y}\right] \end{aligned} p(y)=(2π)2kexp[21yTy]
证毕。
当然我们也可以通过特征函数的方法对马哈拉诺比斯变换引理加以证明。

二、熵

对于连续随机变量有: H [ x ] = E [ I ( x ) ] = − ∫ p ( x ) ln ⁡ p ( x ) d x \displaystyle \mathrm{H}[\bm{x}] =\mathrm{E}[\mathrm{I}(\bm{x})] =-\int p(\bm{x})\ln p(\bm{x})\mathrm{d}\bm{x} H[x]=E[I(x)]=p(x)lnp(x)dx
下面我们推导多元高斯分布的熵:
H [ x ] = − ∫ p ( x ) ln ⁡ p ( x ) d x = − ∫ p ( x ) ln ⁡ [ ( 2 π ) − k 2 ∣ Σ ∣ − 1 2 exp ⁡ [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] ] d x = − ∫ p ( x ) [ ln ⁡ ( ( 2 π ) − k 2 ∣ Σ ∣ − 1 2 ) − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] d x = ln ⁡ ( ( 2 π ) k 2 ∣ Σ ∣ 1 2 ) + 1 2 ∫ p ( x ) [ ( x − μ ) T Σ − 1 ( x − μ ) ] d x = ln ⁡ ( ( 2 π ) k 2 ∣ Σ ∣ 1 2 ) + 1 2 ∫ p ( y ) × y T y d y = ln ⁡ ( ( 2 π ) k 2 ∣ Σ ∣ 1 2 ) + 1 2 ∑ i = 1 k E [ y i 2 ] = ln ⁡ ( ( 2 π ) k 2 ∣ Σ ∣ 1 2 ) + k 2 = ln ⁡ [ ( 2 π e ) k 2 ∣ Σ ∣ 1 2 ] = k 2 ( ln ⁡ 2 π + 1 ) + 1 2 ln ⁡ ∣ Σ ∣ \begin{aligned} \mathrm{H}[\bm{x}] &=-\int p(\bm{x})\ln p(\bm{x})\mathrm{d}\bm{x}\\ &=-\int p(\bm{x})\ln \left[(2\pi)^{-\frac{k}{2}}\left|\bm{\varSigma}\right|^{-\frac{1}{2}}\exp\left[-\frac{1}{2}(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\varSigma}^{-1}(\bm{x}-\bm{\mu}) \right]\right]\mathrm{d}\bm{x}\\ &=-\int p(\bm{x}) \left[\ln \left((2\pi)^{-\frac{k}{2}}\left|\bm{\varSigma}\right|^{-\frac{1}{2}}\right)-\frac{1}{2}(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\varSigma}^{-1}(\bm{x}-\bm{\mu}) \right]\mathrm{d}\bm{x}\\ &=\ln \left((2\pi)^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right)+\frac{1}{2}\int p(\bm{x}) \left[(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\varSigma}^{-1}(\bm{x}-\bm{\mu}) \right]\mathrm{d}\bm{x}\\ &=\ln \left((2\pi)^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right)+\frac{1}{2}\int p(\bm{y})\times\bm{y}^\text{T}\bm{y}\mathrm{d}\bm{y}\\ &=\ln \left((2\pi)^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right)+\frac{1}{2}\sum_{i=1}^k\mathrm{E}[y_i^2]\\ &=\ln \left((2\pi)^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right)+\frac{k}{2}\\ &=\ln \left[(2\pi\mathrm{e})^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right]\\ &=\frac{k}{2}\left(\ln2\pi+1\right)+\frac{1}{2}\ln\left|\bm{\varSigma}\right| \end{aligned} H[x]=p(x)lnp(x)dx=p(x)ln[(2π)2kΣ21exp[21(xμ)TΣ1(xμ)]]dx=p(x)[ln((2π)2kΣ21)21(xμ)TΣ1(xμ)]dx=ln((2π)2kΣ21)+21p(x)[(xμ)TΣ1(xμ)]dx=ln((2π)2kΣ21)+21p(y)×yTydy=ln((2π)2kΣ21)+21i=1kE[yi2]=ln((2π)2kΣ21)+2k=ln[(2πe)2kΣ21]=2k(ln2π+1)+21lnΣ

注意:推导中我们使用了马哈拉诺比斯变换引理。

三、评述

1、在求解多元高斯分布的熵中,我们使用了变量代换,同时引用了马哈拉诺比斯变换引理。
2、深层次的原理涉及到微分形式的积分。同时我们也可以浅层次的理解:使用特征函数导出马哈拉诺比斯变换引理
3、好了我们不应止步,我们征途是星辰大海。


🍀碎碎念🍀
Hello米娜桑,这里是英国留学中的杨丝儿。我的博客的关键词集中在算法、机器人、人工智能、数学等等,点个关注吧,持续高质量输出中。
🌸唠嗑QQ群兔叽的魔术工房 (942848525)
⭐️B站账号杨丝儿今天也在科学修仙(UP主跨站求个关注)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值