数学之美笔记（五）

为什么80%的码农都做不了架构师？>>> 数学之美笔记（五）

一条信息的信息量与它的不确定性有着直接的关系。从某个角度来看，信息量就等于不确定性的多少。
信息熵即信息量，是对信息的量化度量。

对于任意一个随机变量X，它的熵的定义为：H（X）=—Σ P（x）logP（x）。变量的不确定性越大，熵越大。
信息是消除系统不确定性的唯一方法（在没有获得任何信息前，一个系统就像是一个黑盒子，引入信息，就可以了解黑盒子系统的内部结构）
网页搜索的本质就是利用信息消除不确定性的过程。合理利用信息，而不是玩弄什么公式和机器学习算法，是做好搜索的关键。
知道的信息越多，随机事件的不确定性就越小。这些信息可以是直接针对我们要了解的随机事件，也可以适合我们关心的随机事件相关的其他事件的信息。
信息的作用就在于消除不确定性，自然语言处理的大量问题就是找相关的信息。
互信息（Mutual Information）：是对两个随机事件“相关性”的量化度量。

假定有两个随机事件X和Y，它们的互信息定义如下：

I（X；Y）= Σ P（x，y）log（P（x，y）/P（x）P（y））=H（X）—H（X | Y），取值在0到min（H（X），H（Y））之间，当x，y完全相关时取值为1；当二者无关时，取值为0。
相对熵（即交叉熵）（Relative Entropy）：衡量两个取值为正数的函数的相似性

KL（f（x）|| g（x））= Σ f（x） · log（f（x）/ g（x））
1. 对于两个完全相同的函数，它们的相对熵为0.
2. 相对熵越大，两个函数差异越大；反之，相对熵越小，两个函数差异越小。
3. 对于概率密度或概率分布，如果取值都大于0，相对熵可以度量两个随机分布的差异性。
信息熵可以直接用于衡量统计语言模型。

如果有了上下文条件，则应用条件熵。

如果在考虑到从训练语料和真是应用的文本中得到的概率函数有偏差，就需要引入相对熵的概念。

从条件熵和相对熵触发的语言模型复杂度可以直接衡量语言模型的好坏。

本文涉及到的人物及其著作：

丘奇、吉尔、雅让斯基、马库斯、贾里尼克、李开复

《通信的数学原理》——香农

《汉语信息熵和语言模型的复杂度》——吴军、王作英

《信息论基础》——托马斯 · 科弗

转载于:https://my.oschina.net/shou1156226/blog/383744