决策树算法笔记1-信息熵

一元变量信息熵的计算公式
H(X)=∑i=1m−pi∗log2⁡pi H(X)=∑_{i=1}^m -p_i * log_2⁡ p_i H(X)=i=1mpilog2pi
计算变量X的信息熵,对于X来说,有m种可能取值,每种取值的可能性记为 pip_ipi
变量X的信息熵 就是 每种可能性算式( pi∗log2⁡pip_i * log_2⁡ p_ipilog2pi )的累加。

  1. 二元信源的信息熵entropy
    二元信源:相当于一个二进制的一bit,只有0和1两种可能。
    如果0的概率:P
    那么1的概率:Q=1-P
    信息熵H(U) =
    −Plog2⁡P−(1−P)log2(1−P) -P log_2⁡P-(1-P) log_2 (1-P) Plog2P(1P)log2(1P)

  2. 比赛冠军的信息熵
    32 个球队进行比赛,那么冠军花落谁家 所蕴含的信息熵是多少?
    假如每个球队夺冠几率均等,
    那么信息熵H(U) = 32∗(1/32∗log2⁡32) 32*(1/32* log_2⁡32 )321/32log232= 5
    随着比赛队伍的淘汰,有希望夺冠的球队越来越少,冠军球队预测所蕴含的信息熵越来越小,
    比如 到达8强赛时,假如8个球队夺冠几率均等,
    那么信息熵H(U) =
    8∗(1/8∗log2⁡8) 8*(1/8* log_2⁡8) 81/8log28= 3
    也就是说,在每种取值几率均等的前提下,可能的取值越少,信息熵越小。
    在每种取值几率不均等的前提下,可能的取值少了,信息熵也可能增大。
    比如,可能的取值为4个,每种取值几率不均等,分别为13/16,1/16,1/16,1/16
    那么信息熵H(U) =(13/16×log2(⁡16/13))+3∗(1/16∗log2⁡16)(13/16× log_2(⁡16/13)) + 3 *(1/16* log_2⁡16) 13/16×log2(16/13)+31/16log216= 0.9933925
    可能的取值为2个,每种取值几率均等,
    那么信息熵H(U) = 2∗(1/2∗log2⁡2)2 * (1/2* log_2⁡2)21/2log22= 1
    这种情况下的话,4个取值的信息熵(0.9933925)反而比2个取值的信息熵(1)要小。
    总体来收,可能的取值越多,信息熵越趋于更大。
    在每种取值几率均等的前提下,信息熵H(U) = log2取值种类数量log_2取值种类数量log2

  3. 熵可以形象的理解为数值的散乱程度。
    在这里插入图片描述
    比如,A箱子和B箱子里面都有8个球,水平方向也是只能容纳一个球。
    A箱子中间有一个隔断,把红蓝两种球分开了。很明显,A箱子因为有了一个隔断,比B箱子里面的球的分布更加有序。在箱子晃动后的静置状态下, A箱子中的每个球都有4个可能位置,B箱子中的每个球都有8个可能位置。
    A箱子的熵 H(U) = 4∗(1/4∗log2⁡4)+3∗(1/3∗log2⁡3)+2∗(1/2∗log2⁡2)+4∗(1/4∗log2⁡4)+3∗(1/3∗log2⁡3)+2∗(1/2∗log2⁡2)4 * (1/4* log_2⁡4)+ 3 * (1/3* log_2⁡3)+ 2 * (1/2* log_2⁡2)+ 4 * (1/4* log_2⁡4)+ 3 * (1/3* log_2⁡3)+ 2 * (1/2* log_2⁡2)41/4log24+31/3log23+21/2log22+41/4log24+31/3log23+21/2log22
    =log2⁡(4∗3∗2∗4∗3∗2) log_2⁡(4*3*2*4*3*2) log2(432432)

=9.169925
B箱子的熵 H(U) = 8∗(1/8∗log2⁡8)+7∗(1/7∗log2⁡7)+…+2∗(1/2∗log2⁡2) 8 * (1/8* log_2⁡8)+ 7 * (1/7* log_2⁡7)+ … + 2 * (1/2* log_2⁡2)81/8log28+71/7log27++21/2log22
=log2⁡(8∗7∗6∗5∗4∗3∗2) log_2⁡(8*7*6*5*4*3*2) log2(8765432)

=15.299208

也可以从整体上考虑 AB两个箱子的状态,A箱子有 (4 * 3 * 2 * 4 * 3 * 2)种状态,B箱子有 ( 8 * 7 * 6 * 5 * 4 * 3 * 2 )种状态。箱子的熵,其实就是箱子所有可能状态的对数。

A箱子的熵 H(U) = log2⁡(4∗3∗2∗4∗3∗2) log_2⁡(4*3*2*4*3*2) log2(432432)
B箱子的熵 H(U) = log2⁡(8∗7∗6∗5∗4∗3∗2) log_2⁡(8*7*6*5*4*3*2) log2(8765432)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值