【发布时间】:2015-05-06 16:46:30
【问题描述】:
我正在使用 mahout 使用 LDA 进行主题发现。为了准备我的数据,我使用 seq2sparse 标记文档并创建 n-gram。但是它默认不支持词干。我想知道 Mahout 是否有任何内置的词干?如果没有,我应该实施自己的吗?有什么推荐吗?
【问题讨论】:
标签: hadoop mahout stemming porter-stemmer
我正在使用 mahout 使用 LDA 进行主题发现。为了准备我的数据,我使用 seq2sparse 标记文档并创建 n-gram。但是它默认不支持词干。我想知道 Mahout 是否有任何内置的词干?如果没有,我应该实施自己的吗?有什么推荐吗?
【问题讨论】:
标签: hadoop mahout stemming porter-stemmer
您可以使用seq2sparse 命令精确分析您的分析仪:
$MAHOUT_HOME/bin/mahout seq2sparse
...
--analyzerName (-a) analyzerName The class name of the analyzer
该分析器是一个 Apache Lucene 分析器,因此您必须按照以下示例精确命名:
org.apache.lucene.analysis.fr.FrenchAnalyzer
我建议您阅读official documentation 以了解有关使用seqsparse 命令可以做什么的更多信息。您还需要阅读一些 Lucene documentation。
PS:您应该使用与 mahout 中相同的 lucene 版本。
【讨论】:
EnglishMinimalStemmer、EnglishStemmer。你知道哪个更好吗?我的另一个问题是如何找出我的 lucene 版本?