熵
在信息论与概率统计中,熵(entropy) 是表示随机变量不确定性的度量。设XXX是一个取有限个值的离散随机变量,其概率分布为:
P(X=xi)=pi,i=1,2,⋯ ,n P(X=x_i)=p_i,i=1,2,\cdots,n P(X=xi)=pi,i=1,2,⋯,n
则随机变量XXX的熵定义为:
H(X)=−∑i=1npilogpi(1) H(X)=-\sum_{i=1}^n p_i \log p_i \tag{1} H(X)=−i=1∑npilogpi(1)
上述公式中,当对数以222为底时,熵的单位称作比特(bit);当以eee为底时,熵的单位称作纳特(nat)。从定义中可以看出,熵只依赖于XXX的分布,与XXX的具体取值无关,所以,也可以将XXX的熵记作H(p)H(p)H(p),如下:
H(p)=−∑i=1npilogpi(2) H(p)=-\sum_{i=1}^n p_i \log p_i \tag{2} H(p)=−i=1∑npilogpi(2)
注释
XXX的熵也可以解释为随机变量log1p(x)\log \frac{1}{p(x)}logp(x)1的期望。
熵越大,随机变量的不确定性就越大。从定义可以验证
0≤H(p)≤logn(3) 0 \leq H(p) \leq \log n \tag{3} 0≤H(p)≤logn(3)
当随机变量只取两个值,例如111,000时,即XXX的分布为
P(X=1)=p,P(X=0)=1−p,0≤p≤1 P(X=1)=p,P(X=0)=1-p,0 \leq p \leq 1 P(X=1)=p,P(X=0)=1−p,0≤p≤1
熵为:
H(p)=−∑i=1npilogpi=−plog2p−(1−p)log2(1−p)(4) \begin{aligned} H(p) &= -\sum_{i=1}^n p_i \log p_i \\ &= -p\log_2 p-(1-p) \log_2 (1-p) \tag{4} \end{aligned}