【问题标题】:Which datamining tool to use? [closed]使用哪种数据挖掘工具? [关闭]
【发布时间】:2016-11-28 14:46:59
【问题描述】:

谁能解释一下最知名的数据挖掘开源工具的主要优缺点?

我在任何地方都看到 RapidMinerWekaOrangeKNIME 是最好的。 look at this blog post

有人可以在一个小项目符号列表中进行快速的技术比较吗?

我的需求如下:

  • 应该支持分类算法(朴素贝叶斯、SVM、C4.5、 kNN)。
  • 它应该很容易用 Java 实现。
  • 它应该有易于理解的文档。
  • 它应该有参考生产项目或使用案例。
  • 如果可能的话,进行一些额外的基准比较。

谢谢!

【问题讨论】:

  • 关于软件和库推荐的问题不在 StackOverflow 上。
  • 我在问经验和性能比较。你期待什么?
  • 关于编写更好代码的问题。
  • 好的,如何用糟糕的开源数据挖掘工具编写更好的代码?这样更好吗?
  • 那么它就不是你代码的一部分了。

标签: comparison weka data-mining rapidminer


【解决方案1】:

首先我想说的是,您的列表中的每一个都有优点和缺点,但是根据我的个人经验,我建议从您的列表中 weka 使用 weka jar 文件在您自己的 java 应用程序中实现非常简单并拥有自己的数据挖掘工具。

Rapid miner 似乎是一种提供端到端解决方案的商业解决方案,但是 Rapid miner 解决方案的外部实现的最显着数量的示例通常是在 python 和 r 脚本中,而不是 java。

Orange 提供的工具似乎主要针对那些可能不太需要在自己的软件中进行自定义实现但用户迭代更容易的人,它是用 python 编写的,源代码可用,支持用户插件。

Knime 是另一个商业平台,为数据挖掘和分析提供端到端解决方案,提供所有所需的工具,这个平台在互联网上有各种好评,但我没有足够用它来建议你或任何人的优点或缺点它。

查看这里knime vs weka

Best data mining tools

正如我所说,weka 是我个人最喜欢的软件开发人员,但我确信其他人对于为什么选择其中一个有不同的理由和意见。希望您能找到适合您的解决方案。

此外,根据您的要求,weka 支持以下内容:

Naivebayes

SVM

C4.5

KNN

【讨论】:

  • 是的,太好了。谢谢!我个人也使用 WEKA,但为了证明为什么比其他人更好,我不太确定。这就是为什么如果有人在比较算法实现和用于开发的 API-s 之间的性能或差异,我很感兴趣
  • 在阅读并尝试回答您的问题之后,很难找到所有这些数据挖掘工具/平台之间的清晰简洁的性能细分,这实际上非常有用,原因有很多。 .希望我们将来会看到更多的服务提供故障,但我发现这个..这有点帮助..predictiveanalyticstoday.com如果你搜索它会给出非常粗略的评论,但我猜总比没有好......无论如何,如果你已经使用过 weka 并且有使用它的经验可能最容易坚持下去,直到你找到原因
【解决方案2】:

我尝试了使用 15K 记录数据库的 Orange 和 Weka,发现 Weka 中的内存管理存在问题,它需要超过 16Gb 的 RAM,而 Orange 可以在不使用那么多的情况下管理数据库。一旦 Weka 达到最大内存量,它就会崩溃,即使您在 ini 文件中设置更多内存告诉 Java 虚拟机使用更多。

【讨论】:

    【解决方案3】:

    我最近evaluated many open source projects,就决策树机器学习算法对它们进行了比较和对比。 Weka 和 KNIME 被包括在该评估中。我介绍了算法、用户体验、准确性和模型检查方面的差异。您可以根据自己最看重的功能选择其中一个。

    【讨论】:

      【解决方案4】:

      我对 RapidMiner 有过积极的体验:

      • 一大套机器学习算法
      • 机器学习工具 - 特征选择、参数网格搜索、数据分区、交叉验证、指标
      • 大量数据操作算法 - 输入、转换、输出
      • 适用于许多领域 - 金融、网络爬虫、nlp、图像(非常基础)
      • 可扩展——一个可以发送和接收数据的其他技术:R、python、groovy、shell
      • 便携 - 可以作为 java 进程运行
      • 对开发人员友好(在某种程度上,可以使用一些改进)- 日志记录、调试、断点、宏

      我希望在用户体验方面看到像 RapidMiner 这样的东西,但使用基于 python 技术的底层引擎:pandas、scikit-learn、spacy 等。最好是允许从 GUI 来回移动的东西代码。

      【讨论】:

      • 你应该看看orange.biolab.si。 RapidMiner Studio 最多只能释放 10000 个数据行。然后它变得非常昂贵。
      猜你喜欢
      • 2010-10-24
      • 2010-11-18
      • 1970-01-01
      • 2011-05-13
      • 2012-01-06
      • 1970-01-01
      • 1970-01-01
      • 2011-01-13
      • 1970-01-01
      相关资源
      最近更新 更多