Mahout 是否支持词干提取？答案

【问题标题】：Does Mahout support word stemming?Mahout 是否支持词干提取？
【发布时间】：2015-05-06 16:46:30
【问题描述】：

我正在使用 mahout 使用 LDA 进行主题发现。为了准备我的数据，我使用 seq2sparse 标记文档并创建 n-gram。但是它默认不支持词干。我想知道 Mahout 是否有任何内置的词干？如果没有，我应该实施自己的吗？有什么推荐吗？

【问题讨论】：

【解决方案1】：

您可以使用seq2sparse 命令精确分析您的分析仪：

$MAHOUT_HOME/bin/mahout seq2sparse
             ...
             --analyzerName (-a) analyzerName  The class name of the analyzer

该分析器是一个 Apache Lucene 分析器，因此您必须按照以下示例精确命名：

org.apache.lucene.analysis.fr.FrenchAnalyzer

我建议您阅读official documentation 以了解有关使用seqsparse 命令可以做什么的更多信息。您还需要阅读一些 Lucene documentation。

PS：您应该使用与 mahout 中相同的 lucene 版本。

【讨论】：

谢谢，所以我研究了 Lucence，看起来有不同的词干算法，即EnglishMinimalStemmer、EnglishStemmer。你知道哪个更好吗？我的另一个问题是如何找出我的 lucene 版本？
词干算法应该响应您的需求和用例。我不能说哪个更好。您必须同时评估两者，看看哪一个更适合您的模型。
您可以在 Mahout 文档中找到 Lucene 的版本，甚至可以仔细查看。不能在 mahout 源代码中尝试 pom.xml。
我尝试将词干分析器作为分析器传递，但它给了我一条错误消息。 IT 看起来只有 EnglsishAnalyzer 类（或类似的类，如 FrenchAnalyze）不能用作词干分析器？
你用的是什么版本的mahout？