【问题标题】:Does Mahout support word stemming?Mahout 是否支持词干提取?
【发布时间】:2015-05-06 16:46:30
【问题描述】:

我正在使用 mahout 使用 LDA 进行主题发现。为了准备我的数据,我使用 seq2sparse 标记文档并创建 n-gram。但是它默认不支持词干。我想知道 Mahout 是否有任何内置的词干?如果没有,我应该实施自己的吗?有什么推荐吗?

【问题讨论】:

    标签: hadoop mahout stemming porter-stemmer


    【解决方案1】:

    您可以使用seq2sparse 命令精确分析您的分析仪:

    $MAHOUT_HOME/bin/mahout seq2sparse
                 ...
                 --analyzerName (-a) analyzerName  The class name of the analyzer 
    

    该分析器是一个 Apache Lucene 分析器,因此您必须按照以下示例精确命名:

    org.apache.lucene.analysis.fr.FrenchAnalyzer
    

    我建议您阅读official documentation 以了解有关使用seqsparse 命令可以做什么的更多信息。您还需要阅读一些 Lucene documentation

    PS:您应该使用与 mahout 中相同的 lucene 版本。

    【讨论】:

    • 谢谢,所以我研究了 Lucence,看起来有不同的词干算法,即EnglishMinimalStemmerEnglishStemmer。你知道哪个更好吗?我的另一个问题是如何找出我的 lucene 版本?
    • 词干算法应该响应您的需求和用例。我不能说哪个更好。您必须同时评估两者,看看哪一个更适合您的模型。
    • 您可以在 Mahout 文档中找到 Lucene 的版本,甚至可以仔细查看。不能在 mahout 源代码中尝试 pom.xml。
    • 我尝试将词干分析器作为分析器传递,但它给了我一条错误消息。 IT 看起来只有 EnglsishAnalyzer 类(或类似的类,如 FrenchAnalyze)不能用作词干分析器?
    • 你用的是什么版本的mahout?
    猜你喜欢
    • 2021-05-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-06-17
    相关资源
    最近更新 更多