【信息论】Entropy、Relative Entropy,K-L distance

【信息论】Entropy、Relative Entropy,K-L distance

Entropy(熵)

熵表现了信息量的多少,概率越小的样本信息量越大。其是概率对数的期望
log底数为

  • 2:比特 bit
  • e:奈特 nat

为确定X的值所需的二元问题数的最小期望介于H(X)与H(X)+1之间

条件熵(Conditional Entropy)联合熵(Joint Entropy)按照概率论方式算即可
不过因为这里是对数
所以概率中联合分布和条件分布的式子要改一改

KL散度

KL散度也叫互信息或者鉴别信息。是描述两个随机分布之间的距离的度量

其是两个随机变量相除的对数的期望

互信息

互信息可以了解某个随机变量为另一个随机变量提供了多少信息量

可以看到I(X;Y)是描述Y可以为X提供多少信息的度量。也就是在知道Y的情况下X的信息量下降了多少
特别地

也就是说X可以为自己提供H(X) (全部)的信息量
互信息的链式法则

解释:对于每个X_i,求是,在知道他之前的i-1个X的情况下知道Y可以为X_i提供多少信息量

条件相对熵
也就是p和q变成条件分布了

链式法则

Jensen不等式

熵的独立界

对数和不等式

数据处理不等式

解释:相邻的随机过程能够提供更多的信息

Fano不等式

$\hat X$是一个估计量
误差概率$P_e=Pr\{\hat X!= X\}$

-------------End of this passage-------------