信息检索（IR）与数据挖掘与机器学习（ML）答案

【问题标题】：Information retrieval (IR) vs data mining vs Machine Learning (ML)信息检索（IR）与数据挖掘与机器学习（ML）
【发布时间】：2011-03-25 23:12:04
【问题描述】：

人们经常抛出 IR、ML 和数据挖掘这些术语，但我注意到它们之间有很多重叠。

从在这些领域有经验的人看来，这两者之间的界限究竟是什么？

【问题讨论】：

标签： machine-learning data-mining information-retrieval

【解决方案1】：

这只是一个人的观点（受过机器学习的正式培训）；其他人可能对事情的看法完全不同。

机器学习可能是这三个术语中最同质的，也是应用最一致的——它仅限于模式提取 （或模式匹配）算法本身。

在您提到的术语中，“机器学习”是学术部门最常用于描述其课程、学术部门和研究计划的术语，也是学术期刊和会议记录中最常使用的术语。 ML 显然是您提到的术语中最不依赖上下文的。

信息检索和数据挖掘更接近于描述完整的商业流程——即从用户查询到相关信息的检索/交付结果。 ML 算法可能在该流程中的某个地方，并且在更复杂的应用程序中，通常是，但这不是正式的要求。此外，Data Mining 一词似乎通常是指在 big data（即 > 2BG）上应用一些流程，因此通常包括分布式处理（map- reduce) 靠近该工作流前端的组件。

因此，信息检索 (IR) 和数据挖掘 (DM) 以一种基础设施算法 的方式与机器学习 (ML) 相关。换句话说，机器学习是用于解决信息检索问题的工具的一种来源。但这只是工具的一种来源。但是 IR 不依赖于 ML——例如，一个特定的 IR 项目可能是存储和快速检索响应用户搜索查询 IR 的全索引数据，其关键是优化数据流的性能，即，从查询到将搜索结果传递给用户的往返过程。预测或模式匹配在这里可能没有用。同样，DM 项目可能会为预测引擎使用 ML 算法，但 DM 项目更有可能还关注整个处理流程——例如，用于有效输入大量数据（TB 可能）的并行计算技术) 将原始结果传递给处理引擎，以计算变量（列）上的描述性统计（均值、标准差、分布等）。

最后考虑一下 Netflix 奖。这场比赛只针对机器学习——重点是预测算法，事实证明只有一个成功标准：算法返回的预测的准确性。想象一下，如果“Netflix Prize”被重新命名为数据挖掘竞赛。成功标准几乎肯定会扩展到更准确地访问算法在实际商业环境中的性能 - 例如，总体执行速度（向用户提供建议的速度）可能会与准确性一起考虑。

“信息检索”和“数据挖掘”这两个术语现在已成为主流，尽管有一段时间我只在我的工作描述或供应商文献中看到这些术语（通常在“解决方案”一词旁边）。雇主，我们最近聘请了一位“数据挖掘”分析师。我不知道他具体做什么，但他每天都打领带上班。

【讨论】：

(+1) 我也喜欢 Radford Neale 所做的区分：“许多机器学习问题都有大量变量——可能有 10,000、100,000 或更多（例如，基因、像素） . 数据挖掘应用程序通常涉及大量案例——有时是数百万。” (sta414, week1)。
数据挖掘也成为了一个流行词。今天，不幸的是，计算“大数据”数据集的平均值已经被一些人认为是“数据挖掘”。
他打领带上班哈。这让我很好地了解了他可能在做什么:-)

【解决方案2】：

我会尝试如下画线：

信息检索是要尽快找到已经属于您数据一部分的内容。

机器学习是将现有知识推广到新数据的技术，尽可能准确。

数据挖掘主要是发现数据中隐藏的东西，你以前不知道的东西尽可能“新”。

他们相交并经常使用彼此的技术。 DM 和 IR 都使用索引结构来加速流程。 DM 使用了很多 ML 技术，例如数据集中对泛化有用的模式可能是一种新知识。

它们通常很难分开。帮自己一个忙，不要只追求流行语。在我看来，区分它们的最佳方法是通过它们的意图，如上所示：查找数据、推广到新数据、查找现有数据的新属性。

【讨论】：

我不同意你对机器学习的看法。您的观点更侧重于监督学习（因为您的陈述是正确的）。然而，无监督学习是寻找人们不知道的模式，因此没有先验知识。
无监督学习是矛盾的。无监督方法是 DM，而不是 ML。他们不学习，他们怎么可能，所以根本不要把他们挤进学习视野。
我相信您指的是存储，无监督方法在执行后不会记住。我确实同意，人工智能中的术语存在缺陷，但就目前而言，无监督处于机器学习之下，所以我仍然不同意你的帖子。此外，DM 不一定使用无监督学习方法（尽管大部分情况下），所以说无监督学习等于 DM 确实是非常错误的。
如果我们想在这里取得任何进展，请定义“学习”。对我来说，“学习”是对训练数据的概括。我没有看到这种情况发生，例如在聚类中 - 没有训练数据。
我个人使用这个词的英文意思，“通过学习、经验或被教导获得知识或技能。”。监督是指通过学习数据进行教学，而通过学习/经验不受监督，因此它可以学习。所以我猜我们的不同观点源于对learning这个词的解释。

【解决方案3】：

您还可以添加模式识别和（计算？）统计作为与您提到的三个重叠的另外几个领域。

我想说它们之间没有明确的界限。他们的不同之处在于他们的历史和他们的重点。统计强调数学严谨性，数据挖掘强调扩展到大型数据集，ML 介于两者之间。

【讨论】：

【解决方案4】：

数据挖掘是关于发现隐藏的模式或未知的知识，可以用来供人们决策。

机器学习是关于学习模型以对新对象进行分类。

【讨论】：