【信息论】Entropy、Relative Entropy,K-L distance
Entropy(熵)
熵表现了信息量的多少,概率越小的样本信息量越大。其是概率对数的期望
log底数为
- 2:比特 bit
- e:奈特 nat
为确定X的值所需的二元问题数的最小期望介于H(X)与H(X)+1之间
条件熵(Conditional Entropy)和联合熵(Joint Entropy)按照概率论方式算即可
不过因为这里是对数
所以概率中联合分布和条件分布的式子要改一改
KL散度
KL散度也叫互信息或者鉴别信息。是描述两个随机分布之间的距离的度量
其是两个随机变量相除的对数的期望
互信息
互信息可以了解某个随机变量为另一个随机变量提供了多少信息量
可以看到I(X;Y)是描述Y可以为X提供多少信息的度量。也就是在知道Y的情况下X的信息量下降了多少
特别地
也就是说X可以为自己提供H(X) (全部)的信息量
互信息的链式法则
解释:对于每个X_i,求是,在知道他之前的i-1个X的情况下知道Y可以为X_i提供多少信息量
条件相对熵
也就是p和q变成条件分布了
链式法则
Jensen不等式
熵的独立界
对数和不等式
数据处理不等式
解释:相邻的随机过程能够提供更多的信息
Fano不等式
$\hat X$是一个估计量
误差概率$P_e=Pr\{\hat X!= X\}$