【发布时间】:2010-09-29 23:46:20
【问题描述】:
我上次使用的是weka .我最后一次听说 java 正在为它提出一个 API (JDM)。任何人都可以分享他们使用这些工具的经验。我最感兴趣的是使用分类/聚类工具(weka 在这里做得不错)并且该工具应该具有良好的 API 支持。
【问题讨论】:
标签: java data-mining
我上次使用的是weka .我最后一次听说 java 正在为它提出一个 API (JDM)。任何人都可以分享他们使用这些工具的经验。我最感兴趣的是使用分类/聚类工具(weka 在这里做得不错)并且该工具应该具有良好的 API 支持。
【问题讨论】:
标签: java data-mining
我使用自己用 Java 开发的软件,专门从事务数据库或序列数据库中挖掘频繁模式和关联规则:
http://www.philippe-fournier-viger.com/spmf/
它提供了 46 种算法,其中包括一些您在任何其他流行的数据挖掘软件中都找不到的算法。有 GUI 版本和源代码版本。
【讨论】:
您真的应该查看 Orange 数据挖掘工具包。它带有一个拖放 gui 以及一个 Python API。
【讨论】:
根据 KDnuggets 2007、2008 和 2009 年的年度民意调查,RapidMiner 是全球数据挖掘专家中使用最广泛的开源数据挖掘解决方案: KDnuggets Data Mining Tool Poll 2009
RapidMiner 是开源的,100% Java,RapidMiner 比 Weka 更灵活,提供的功能也更多。
【讨论】:
Weka 是一个流行的数据挖掘平台,为分类、聚类等实现了许多教科书算法。它非常适合快速原型设计,即快速设置系统并验证它是否符合预期目的。
但是,Weka 存在两个主要问题。首先是它是在 GPL 许可下分发的,这意味着您不能将其用作商业包的一部分,也不能对其进行修改,也不能发布更改。此外,Weka 的另一个弱点是它不能处理大量数据。如果您的数据无法放入计算机的内存中,那么您就有问题了。
Apache Mahout 软件包解决了这两个问题。它相对较新,缺少一些功能,但根据您遇到的数据挖掘问题,可能是您的正确选择
【讨论】:
我正在使用RapidMiner(以前来自多特蒙德大学的耶鲁大学)。它是一个基于 Java 的开源工具,实现了大多数流行的分类器/聚类方法。它还附带了为 Weka 工具包实现的算法,因此那里有更多选项。带有一个非常易于使用的 GUI,以及一个基于 Java 的 API。
【讨论】:
我们在为分类和聚类开发的一些软件中使用了 Weka。我不是数据挖掘方面的专家,但评估它以及其他一些产品的团队肯定知道他们的东西,并且通常习惯于使用非常昂贵的现成产品。
【讨论】:
我使用 Weka 进行文本分类。很不错。 book 也不错。可以保留数据表示并修改算法的框架的想法很棒。
【讨论】: