Measure Zero: Side Note: Information Entropy, Cross-Entropy and KL Divergence

Nov 30, 2019

我们考虑一个事件 , 它发生的概率是 . 假设我们观测到事件发生, 我们希望定义一个信息量来衡量 " 发生了" 这件事给了我们多少信息.

由 Cauchy's functional equation, 根据单调, 可知

其中是一个常数, 由单调递减可知 , 不妨取 . 而且我们也可以看出

考虑一个离散分布, 互斥事件发生的概率为 , 假设观测次, 恰好发生了次, 则我们得到的总的信息量为

我们用平均信息量来衡量每次观测到事件发生得到的信息量, 即信息熵

更一般地, 若有密度函数 , 则它的熵定义为

关于最大熵分布可以参见这个回答.

若有另一个密度函数 , 我们可以定义交叉熵

一个 informal 但是简单直观的解释可以参见这个回答.

以及 KL 散度

其中不等号是由 Jensen 不等式.

Measure Zero