【问题标题】:Weighted Naive Bayes Classifier in Apache MahoutApache Mahout 中的加权朴素贝叶斯分类器
【发布时间】:2012-01-24 11:09:30
【问题描述】:

我正在使用朴素贝叶斯分类器对客户支持进行情绪分析。但不幸的是,我在客户支持领域没有大量带注释的数据集。但是我在同一个域中有少量注释数据(大约 100 个正数和 100 个负数)。我也有亚马逊产品评论数据集。

我是否可以使用 mahout 实现加权的朴素贝叶斯分类器,这样我就可以对少量客户支持数据赋予更大的权重,而对亚马逊产品评论数据赋予更小的权重。我猜对上述加权数据集的训练将大大提高准确性。请帮助我。

【问题讨论】:

    标签: machine-learning sentiment-analysis mahout naivebayes


    【解决方案1】:

    一种非常简单的方法是过采样。即多次重复训练数据中的客户支持示例。

    虽然这不是同一个问题,但通过研究用于类不平衡的方法,您可能会得到一些进一步的想法;特别是过采样(如前所述)和欠采样。

    【讨论】:

    • 我只是在尝试类似的东西。使用少量的训练数据对一个样本数据集进行分类,随机交叉检查,然后加入到训练集中。
    猜你喜欢
    • 2011-12-28
    • 2012-04-28
    • 1970-01-01
    • 2014-07-01
    • 2017-01-10
    • 2015-08-27
    • 2011-03-05
    • 2018-02-06
    相关资源
    最近更新 更多