首先,我们知道, 熵 是用来量化数据中含有的信息量的,其计算公式为:
H=−∑i=1Np(xi)⋅logp(xi)H=-\sum_{i=1}^{N}p(x_{i})\cdot \log p(x_{i})H=−i=1∑Np(xi)⋅logp(xi)
1)KL散度(Kullback–Leibler divergence)
又称KL距离,相对熵,用来比较两个概率分布的接近程度。
假设 p(x)p(x)p(x) 为数据的真实概率分布,q(x)q(x)q(x) 为数据的理论概率分布,计算它们每个取值之间对应的差:
KL(p∣∣q)=∑i=1Np(xi)⋅(logp(xi)−logq(xi))KL(p||q)=\sum_{i=1}^{N}p(x_{i})\cdot \left (\log p(x_{i})-\log q(x_{i}) \right )KL(p∣∣q)=i=1∑