数据挖掘引擎和框架？ [关闭]答案

【问题标题】：Data mining engines and frameworks? [closed]数据挖掘引擎和框架？ [关闭]
【发布时间】：2011-05-11 18:34:10
【问题描述】：

您知道并使用哪些开源/免费数据挖掘引擎和框架来处理文本数据？

感谢您的建议！

【问题讨论】：

【解决方案1】：

不太确定您在寻找什么。也许像Lucene 这样的东西？

【讨论】：

【解决方案2】：

Apache Mahout 是一个开源机器学习库，可以与或不与 MapReduce (Apache Hadoop) 一起使用。

它在Java中提供了以下算法实现：

【讨论】：

【解决方案3】：

RapidMiner 是免费和开源的，可以在 windows、mac、linux 上运行，是一个很好的基于图形工作流的程序。它运行所有 Weka 代码，并与 R 集成。

【讨论】：

【解决方案4】：

Weka 和 Rapidminer 在集群方面没有那么强。他们主要进行分类和类似的预测，但很少进行聚类。看看ELKI，它就像 WEKA 一个大学项目，但有大量的聚类和异常值检测方法。

【讨论】：

【解决方案5】：

我不了解引擎或框架，但我使用过这个名为 Weka 的工具，它实现了很多算法。

【讨论】：

【解决方案6】：

对于文本处理（而不是数字数据挖掘和聚类），NLTK 工具包值得一看。这旨在教授 Python 中的自然语言处理技术。因此，它非常适合修补，如果您选择使用 Python，您一定会发现许多有用的组件类和实现。

【讨论】：

【解决方案7】：

RapidMiner 是我首选的数据挖掘解决方案： http://www.RapidMiner.com/

以下是数据挖掘专家中最流行的数据挖掘工具的调查： http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets 2011 年民意调查：RapidMiner 是全球数据挖掘专家中使用最广泛的数据挖掘解决方案。

【讨论】：

【解决方案8】：

我是用于频繁模式挖掘的 Java 开源软件的作者。它提供了用于挖掘序列模式、关联规则、频繁项集等的算法。

虽然它不是专门为文本挖掘而设计的，但其中一些算法可以用于挖掘文本中的频繁模式。例如，如果您想找到一些经常出现在几个句子中的单词序列，您可以应用顺序模式挖掘算法。但要做到这一点，您需要在应用我的软件之前进行一些预处理，以便您的文本文件具有正确的格式。

【讨论】：

【解决方案9】：

Apache Mahout 提供了一系列流行的算法，这些算法也可以应用于文本数据，并且具有很强的可扩展性！ Apache UIMA 不提供数据挖掘算法，但它是一个广泛用于自然语言处理的框架。

【讨论】：