【问题标题】:Data mining engines and frameworks? [closed]数据挖掘引擎和框架? [关闭]
【发布时间】:2011-05-11 18:34:10
【问题描述】:

您知道并使用哪些开源/免费数据挖掘引擎和框架来处理文本数据?

感谢您的建议!

【问题讨论】:

  • 您真的在寻找文本挖掘引擎吗?数据挖掘引擎倾向于处理元数据而不是文本本身。

标签: search text full-text-search cluster-analysis data-mining


【解决方案1】:

不太确定您在寻找什么。也许像Lucene 这样的东西?

【讨论】:

    【解决方案2】:

    Apache Mahout 是一个开源机器学习库,可以与或不与 MapReduce (Apache Hadoop) 一起使用。

    它在Java中提供了以下算法实现:

    • 协同过滤
    • 基于用户和项目的推荐器
    • K-Means、模糊 K-Means 聚类
    • 均值偏移聚类
    • Dirichlet 过程聚类
    • 潜在狄利克雷分配
    • 奇异值分解
    • 并行频繁模式挖掘
    • 互补朴素贝叶斯分类器
    • 基于随机森林决策树的分类器

    您可以阅读更多: http://mahout.apache.org/

    http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

    http://www.ibm.com/developerworks/java/library/j-mahout/

    【讨论】:

      【解决方案3】:

      RapidMiner 是免费和开源的,可以在 windows、mac、linux 上运行,是一个很好的基于图形工作流的程序。它运行所有 Weka 代码,并与 R 集成。

      【讨论】:

      • @el 谢谢;)我会检查的)
      【解决方案4】:

      Weka 和 Rapidminer 在集群方面没有那么强。他们主要进行分类和类似的预测,但很少进行聚类。看看ELKI,它就像 WEKA 一个大学项目,但有大量的聚类和异常值检测方法。

      【讨论】:

        【解决方案5】:

        我不了解引擎或框架,但我使用过这个名为 Weka 的工具,它实现了很多算法。

        【讨论】:

        【解决方案6】:

        对于文本处理(而不是数字数据挖掘和聚类),NLTK 工具包值得一看。这旨在教授 Python 中的自然语言处理技术。因此,它非常适合修补,如果您选择使用 Python,您一定会发现许多有用的组件类和实现。

        【讨论】:

        • 谢谢!如果我的一个项目将在 python 上,我会检查这个工具包;)
        【解决方案7】:

        RapidMiner 是我首选的数据挖掘解决方案: http://www.RapidMiner.com/

        以下是数据挖掘专家中最流行的数据挖掘工具的调查: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

        KDnuggets 2011 年民意调查:RapidMiner 是全球数据挖掘专家中使用最广泛的数据挖掘解决方案。

        【讨论】:

          【解决方案8】:

          我是用于频繁模式挖掘的 Java 开源软件的作者。它提供了用于挖掘序列模式、关联规则、频繁项集等的算法。

          虽然它不是专门为文本挖掘而设计的,但其中一些算法可以用于挖掘文本中的频繁模式。例如,如果您想找到一些经常出现在几个句子中的单词序列,您可以应用顺序模式挖掘算法。但要做到这一点,您需要在应用我的软件之前进行一些预处理,以便您的文本文件具有正确的格式。

          您可以在此处查看软件: http://www.philippe-fournier-viger.com/spmf/

          【讨论】:

            【解决方案9】:

            Apache Mahout 提供了一系列流行的算法,这些算法也可以应用于文本数据,并且具有很强的可扩展性! Apache UIMA 不提供数据挖掘算法,但它是一个广泛用于自然语言处理的框架。

            【讨论】:

              猜你喜欢
              • 2011-01-19
              • 1970-01-01
              • 1970-01-01
              • 2010-10-24
              • 2011-01-13
              • 1970-01-01
              • 2011-07-13
              • 2014-04-20
              • 2015-05-16
              相关资源
              最近更新 更多