熵与信息关系答案

【问题标题】：Entropy and information relation熵与信息关系
【发布时间】：2014-09-17 23:55:53
【问题描述】：

就压缩和信息论而言，源的熵是来自源的符号可以传达的平均信息量（以比特为单位）。通俗地说，如果我们对事件的结果有把握，那么熵就小了。

J. Principe, D. Xu, and J. Fisher, “Information theoretic learning,” in Unsupervised Adaptive Filtering, S. Haykin, Ed. New York: Wiley, 2000, vol. I, pp. 265–319.

熵（Shannon 和 Renyis）已通过最小化误差的熵作为目标函数而不是均方误差用于学习。

我的问题是

最小化误差熵的基本原理是什么？当熵最大时，我们可以对信息说些什么？谢谢你

【问题讨论】：

不，这与家庭作业无关。我在论文中遇到过熵参数估计 - Deniz Erdogmus，成员，IEEE 和 Jose C. Principe，An Error-Entropy Minimization Algorithm for Supervised Training非线性自适应系统的 J. Principe、D. Xu 和 J. Fisher，“信息论学习”，无监督自适应过滤，S. Haykin，Ed。纽约：威利，2000 年，第一卷。我，第 265-319 页。
问题基于这些论文，我将更新我的问题并请求在更新适当后删除反对票。
不知道为什么你的投票失败了。这是一个经过充分研究的问题，有用且清晰。
@MrAlias：题外话了。
@MitchWheat 感谢您的反馈！但是，flag 功能旨在用于此目的。

标签： computer-science estimation entropy

【解决方案1】：

这可能更适合CS Stack Overflow，但只要我们有计算机科学标签，我就不愿意投反对票。（注意：NOT CS Theory Stack Overflow，这是针对研究级别的讨论，这不是。他们将投票并立即关闭。）

无论如何，直观的答案几乎与您所说的完全一样：当您最小化某事物的熵时，您正在提高预测它的能力。如果你最小化模型和结果之间的误差熵，你就是说你正在增加模型的预测能力。

要在数学上加强这种直觉，请继续研究诸如期望最大化算法之类的东西，直到您将其内化。如果你觉得 EM 很难，那就继续研究贝叶斯概率之类的东西，直到 EM 有意义。

【讨论】：

熵最小化=信息最小化还是相反的关系？当我们说香农熵与信息有关时，我们所说的信息是指信息内容还是仅仅是信息。你能解释一下这部分（Q1）最大化和最小化熵对信息的影响吗？对于它的信息，或互信息或与熵相关的信息内容感到困惑。
我无法在比原始论文更少的篇幅中合理地解释这些事情，不。
能否请您至少回答熵增加=信息增加与否的疑问如果我的这个信息是指信息内容或我们在谈论什么样的信息。然后我会跟随你的领导并学习。但是，这些答案不能直接在熵增加=信息增加或减少的情况下找到。
您似乎在假设熵和信息是同一事物的情况下进行操作。他们不是。熵是随机过程的预期信息（在概率意义上）的度量。它也是衡量不确定性的指标——注意这些负号是如何工作的！因此，当您最小化错误表达式的熵 时，您也在最小化错误的不确定性。毕竟，如果错误中没有不确定性，那么您显然知道它是什么并且可以解释它。