【问题标题】:Preprocessing on mahout classifier training datamahout 分类器训练数据的预处理
【发布时间】:2013-03-21 18:01:39
【问题描述】:

我正在训练 mahout 分类器。我是否需要对我的训练数据进行词干提取、小写和停用词删除,否则 mahout 会在训练过程中处理这些问题。下面的命令我用于培训。

$MAHOUT_HOME/bin/mahout trainclassifier -i category-training-data -o category-bayes-model -type bayes -ng 1 -source hdfs

【问题讨论】:

    标签: machine-learning mahout


    【解决方案1】:

    它不做那种预处理,不。

    【讨论】:

    • 感谢 Sean 的回答。但是在对我的数据进行这种预处理(有问题提到)之后,是否可以提高分类器的准确性??
    • 可能是因为您会倾向于忽略不能区分类别的信号(停用词)并识别两个字符串何时实际上是相同的语义概念,这就是特征应该是什么(词干)。
    猜你喜欢
    • 2020-06-15
    • 2020-06-26
    • 1970-01-01
    • 1970-01-01
    • 2016-01-12
    • 2016-07-03
    • 1970-01-01
    • 1970-01-01
    • 2019-07-23
    相关资源
    最近更新 更多