信息熵介绍

本文介绍了信息熵的概念,它是衡量随机变量不确定性的度量。熵越大,不确定性越大。接着讨论了联合熵、条件熵和互信息,以及它们在信息理论中的作用。信息增益作为决策树选择特征的重要依据,也在文中被详细阐述。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在信息论与概率统计中,熵(entropy) 是表示随机变量不确定性的度量。设XXX是一个取有限个值的离散随机变量,其概率分布为:
P(X=xi)=pi,i=1,2,⋯ ,n P(X=x_i)=p_i,i=1,2,\cdots,n P(X=xi)=pi,i=1,2,,n
则随机变量XXX的熵定义为:
H(X)=−∑i=1npilog⁡pi(1) H(X)=-\sum_{i=1}^n p_i \log p_i \tag{1} H(X)=i=1npilogpi(1)
上述公式中,当对数以222为底时,熵的单位称作比特(bit);当以eee为底时,熵的单位称作纳特(nat)。从定义中可以看出,熵只依赖于XXX的分布,与XXX的具体取值无关,所以,也可以将XXX的熵记作H(p)H(p)H(p),如下:
H(p)=−∑i=1npilog⁡pi(2) H(p)=-\sum_{i=1}^n p_i \log p_i \tag{2} H(p)=i=1npilogpi(2)

注释
XXX的熵也可以解释为随机变量log⁡1p(x)\log \frac{1}{p(x)}logp(x)1的期望。

熵越大,随机变量的不确定性就越大。从定义可以验证
0≤H(p)≤log⁡n(3) 0 \leq H(p) \leq \log n \tag{3} 0H(p)logn(3)
当随机变量只取两个值,例如111000时,即XXX的分布为
P(X=1)=p,P(X=0)=1−p,0≤p≤1 P(X=1)=p,P(X=0)=1-p,0 \leq p \leq 1 P(X=1)=p,P(X=0)=1p,0p1
熵为:
H(p)=−∑i=1npilog⁡pi=−plog⁡2p−(1−p)log⁡2(1−p)(4) \begin{aligned} H(p) &= -\sum_{i=1}^n p_i \log p_i \\ &= -p\log_2 p-(1-p) \log_2 (1-p) \tag{4} \end{aligned}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

great-wind

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值