一、说明
我觉得用最大熵来获取概率分布的方法很给力。您采用一些已知或约束,然后在这些条件下最大化信息熵,瞧!你有一个独特的概率分布。很酷的是,这些最大熵分布非常常见,因此这是一种重新推导我们日常遇到的许多分布的巧妙方法。对我来说,仅此一点就值得付出代价。但从信息论的角度来看,这些将是偏差最小的先验分布(我们最大化我们的无知),因此随后的贝叶斯定理实验将 最大化获得的信息。此外,自然界中发现的许多物理模式都倾向于最大熵概率分布。因此,即使作为理解世界的一种方式,最大熵也是一个非常有用且深入的工具。
以下是一些常见的概率分布以及如何根据最大熵原理推导出它们。
二、如何认识所谓的“熵”
要想认识谓熵的概念,首先要认识“信息”的价值,所谓“信息”的“价值”我们可以如下描述:
1)越是概率小的事物,其信息更有价值。
2)对于一个固定的分布,其总熵是个固定值。
3)对于一系列可变化参数的分布,其总熵是个函数。
对于连续函数: 熵是一个最初植根于热力学的概念,在信息论和统计学中具有重要意义。在概率分布的背景下,熵衡量与随机变量相关的不确定性或不可预测性。对于概率密度函数为 p(x) 的连续随机变量 X,熵 H 在数学上定义为: