【发布时间】:2011-05-11 18:34:10
【问题描述】:
您知道并使用哪些开源/免费数据挖掘引擎和框架来处理文本数据?
感谢您的建议!
【问题讨论】:
-
您真的在寻找文本挖掘引擎吗?数据挖掘引擎倾向于处理元数据而不是文本本身。
标签: search text full-text-search cluster-analysis data-mining
您知道并使用哪些开源/免费数据挖掘引擎和框架来处理文本数据?
感谢您的建议!
【问题讨论】:
标签: search text full-text-search cluster-analysis data-mining
不太确定您在寻找什么。也许像Lucene 这样的东西?
【讨论】:
Apache Mahout 是一个开源机器学习库,可以与或不与 MapReduce (Apache Hadoop) 一起使用。
它在Java中提供了以下算法实现:
您可以阅读更多: http://mahout.apache.org/
http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html
【讨论】:
RapidMiner 是免费和开源的,可以在 windows、mac、linux 上运行,是一个很好的基于图形工作流的程序。它运行所有 Weka 代码,并与 R 集成。
【讨论】:
Weka 和 Rapidminer 在集群方面没有那么强。他们主要进行分类和类似的预测,但很少进行聚类。看看ELKI,它就像 WEKA 一个大学项目,但有大量的聚类和异常值检测方法。
【讨论】:
我不了解引擎或框架,但我使用过这个名为 Weka 的工具,它实现了很多算法。
【讨论】:
对于文本处理(而不是数字数据挖掘和聚类),NLTK 工具包值得一看。这旨在教授 Python 中的自然语言处理技术。因此,它非常适合修补,如果您选择使用 Python,您一定会发现许多有用的组件类和实现。
【讨论】:
RapidMiner 是我首选的数据挖掘解决方案: http://www.RapidMiner.com/
以下是数据挖掘专家中最流行的数据挖掘工具的调查: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html
KDnuggets 2011 年民意调查:RapidMiner 是全球数据挖掘专家中使用最广泛的数据挖掘解决方案。
【讨论】:
我是用于频繁模式挖掘的 Java 开源软件的作者。它提供了用于挖掘序列模式、关联规则、频繁项集等的算法。
虽然它不是专门为文本挖掘而设计的,但其中一些算法可以用于挖掘文本中的频繁模式。例如,如果您想找到一些经常出现在几个句子中的单词序列,您可以应用顺序模式挖掘算法。但要做到这一点,您需要在应用我的软件之前进行一些预处理,以便您的文本文件具有正确的格式。
您可以在此处查看软件: http://www.philippe-fournier-viger.com/spmf/
【讨论】:
Apache Mahout 提供了一系列流行的算法,这些算法也可以应用于文本数据,并且具有很强的可扩展性! Apache UIMA 不提供数据挖掘算法,但它是一个广泛用于自然语言处理的框架。
【讨论】: