使用什么数据挖掘应用程序？ [关闭]答案

【问题标题】：What data mining application to use? [closed]使用什么数据挖掘应用程序？ [关闭]
【发布时间】：2010-09-29 23:46:20
【问题描述】：

我上次使用的是weka .我最后一次听说 java 正在为它提出一个 API (JDM)。任何人都可以分享他们使用这些工具的经验。我最感兴趣的是使用分类/聚类工具（weka 在这里做得不错）并且该工具应该具有良好的 API 支持。

【问题讨论】：

【解决方案1】：

我使用自己用 Java 开发的软件，专门从事务数据库或序列数据库中挖掘频繁模式和关联规则：

它提供了 46 种算法，其中包括一些您在任何其他流行的数据挖掘软件中都找不到的算法。有 GUI 版本和源代码版本。

【讨论】：

【解决方案2】：

您真的应该查看 Orange 数据挖掘工具包。它带有一个拖放 gui 以及一个 Python API。

【讨论】：

【解决方案3】：

根据 KDnuggets 2007、2008 和 2009 年的年度民意调查，RapidMiner 是全球数据挖掘专家中使用最广泛的开源数据挖掘解决方案： KDnuggets Data Mining Tool Poll 2009

RapidMiner 是开源的，100% Java，RapidMiner 比 Weka 更灵活，提供的功能也更多。

【讨论】：

【解决方案4】：

Weka 是一个流行的数据挖掘平台，为分类、聚类等实现了许多教科书算法。它非常适合快速原型设计，即快速设置系统并验证它是否符合预期目的。

但是，Weka 存在两个主要问题。首先是它是在 GPL 许可下分发的，这意味着您不能将其用作商业包的一部分，也不能对其进行修改，也不能发布更改。此外，Weka 的另一个弱点是它不能处理大量数据。如果您的数据无法放入计算机的内存中，那么您就有问题了。

Apache Mahout 软件包解决了这两个问题。它相对较新，缺少一些功能，但根据您遇到的数据挖掘问题，可能是您的正确选择

【讨论】：

【解决方案5】：

我正在使用RapidMiner（以前来自多特蒙德大学的耶鲁大学）。它是一个基于 Java 的开源工具，实现了大多数流行的分类器/聚类方法。它还附带了为 Weka 工具包实现的算法，因此那里有更多选项。带有一个非常易于使用的 GUI，以及一个基于 Java 的 API。

【讨论】：

【解决方案6】：

我们在为分类和聚类开发的一些软件中使用了 Weka。我不是数据挖掘方面的专家，但评估它以及其他一些产品的团队肯定知道他们的东西，并且通常习惯于使用非常昂贵的现成产品。

【讨论】：

【解决方案7】：

我使用 Weka 进行文本分类。很不错。 book 也不错。可以保留数据表示并修改算法的框架的想法很棒。

【讨论】：