关于信息熵相关的定义的理解

1、信息量

信息量是通过概率来定义的：

如果一件事情的概率很低，那么它的信息量就很大；
反之，如果一件事情的概率很高，它的信息量就很低。
这件事情放在生活中，也是相当容易理解的。例如：“王思聪是富豪”这件事情的概率很高，但是说清楚这件事情只用一句话：“王思聪是王健林的儿子”，信息量少。那么我“李某人是富豪”这件事发生的概率就很低，要说清楚这件事情，估计得说上三天三夜了，信息量很大。
$信息量 = \log \frac{1}{p(x)}$
$\frac{1}{p(x)}$ 倒数这件事表示了，“信息量”和“概率”是反比例关系；
$\log$ 取对数这件事情将一个区间 $[1,\infty]$ 映射到 $[0, \infty]$ ，具体如下：

$\begin {aligned} &\because \quad p(x) \in [0,1],\\ &\therefore \quad \frac{1}{p(x)} \in [1, \infty]，\\ &\therefore \quad \log \frac{1}{p(x)} \in [0, \infty]\\ \end {aligned}$ 。

2、信息熵

$H(X) = -\sum_{x \in X} p(x)\log p(x)$

可以看出：信息熵是信息量的数学期望。理解了信息量，信息熵的定义式便不难理解。

关系信息熵，其实还有很多可以说的。

熵越小表示越“纯”，决策树算法在进行特征选择时的其中标准之一就是选择那个使得通过该特征分类以后的类标熵最小；
上面是熵越小越好，而有的时候，我们需要熵越大越好，简单来说就是“鸡蛋不要放在一个篮子里”（见吴军《数学之美》），最大熵原理就是这样，这部分内容可以参考李航《统计机器学习》逻辑回归模型相关部分，以后我们再花时间专门来叙述，这部分内容不好啃下来。

3、条件熵

条件熵一定要记住下面的这个定义式，其它的公式都可以由信息熵和条件熵的定义式得出。

$H(Y|X)=\sum_{x\in X} p(x)H(Y|X=x)$

理解条件熵可以使用决策树进行特征选择的例子：我们期望选择的特征要能将数据的标签尽可能分得比较“纯”一些，特征将数据的标签分得“纯”，则熵就小，信息增益就大。

条件熵可以变形成如下：

$\begin{aligned} H(Y|X)&=\sum_{x\in X} p(x)H(Y|X=x)\\ &=-\sum_{x\in X} p(x)\sum_{y\in Y}p(y|x)\log p(y|x)\\ &=-\sum_{x\in X} \sum_{y\in Y}p(y,x)\log p(y|x). \end{aligned}$

说明：有些教材直接把最后一步 $H(Y|X)=-\sum_{x\in X} \sum_{y\in Y}p(x,y)\log p(y|x)$ 定义成条件熵，要注意甄别，其实是一个意思，我个人觉得 $H(Y|X)=\sum_{x\in X} p(x)H(Y|X=x)$ 这种定义式更好理解，而这个定义式可以参考李航《统计学习方法》P61 页内容来理解，并不难记忆，其实条件熵就是数学期望的数学期望。

4、互信息

根据信息熵和条件熵的公式，马上可以计算出：
$\begin{aligned} H(Y) - H(Y|X)&=-\sum_{y \in Y}p(y)\log p(y) - \sum_{x\in X} p(x)H(Y|X=x)\\ &=-\sum_{y \in Y}\left( \sum_{x \in X} p(x,y) \right)\log p(y) + \sum_{x\in X} p(x)\sum_{y\in Y}p(y|x)\log p(y|x)\\ &=-\sum_{y \in Y}\sum_{x \in X} p(x,y) \log p(y) + \sum_{x\in X} \sum_{y\in Y}p(y,x)\log p(y|x)\\ &=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log \frac{p(y|x)}{p(y)}\\ &=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}. \end{aligned}$
同理，

$\begin{aligned} H(X) - H(X|Y)&=-\sum_{x \in X}p(x)\log p(x) - \sum_{y\in Y} p(y)H(X|Y=y)\\ &=-\sum_{x \in X}\left( \sum_{y \in Y} p(x,y) \right)\log p(x) + \sum_{y\in Y} p(y)\sum_{x\in X}p(x|y)\log p(x|y)\\ &=-\sum_{x \in X}\sum_{y \in Y} p(x,y) \log p(x) + \sum_{y\in Y} \sum_{x\in X}p(x,y)\log p(x|y)\\ &=\sum_{y\in Y} \sum_{x\in X}p(x,y)\log \frac{p(x|y)}{p(x)}\\ &=\sum_{y\in Y} \sum_{x\in X}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}. \end{aligned}$

因此：
$H(Y) - H(Y|X) = H(X) - H(X|Y).$
定义互信息：
$I(X,Y) = H(Y) - H(Y|X) = H(X) - H(X|Y).$

因此，互信息就是信息增益。

通过下图可以理解上面的数学推导表示的含义。

关于信息熵相关的定义的理解

这一篇幅先写这么多，后面再写联合熵、相对熵、交叉熵，把这些概率理清楚。