【问题标题】:Text classification with Naive Bayes使用朴素贝叶斯进行文本分类
【发布时间】:2019-01-22 08:29:32
【问题描述】:

我正在学习 NLP,并注意到基于朴素贝叶斯的 TextBlob 分类(textblob 是在 NLTK 之上构建的)https://textblob.readthedocs.io/en/dev/classifiers.html 在训练数据是句子列表时工作正常,而在训练数据是单个单词时根本不起作用(其中每个单词和分配的分类)。

为什么?

【问题讨论】:

    标签: python nlp nltk text-classification textblob


    【解决方案1】:

    因为训练数据中没有单个单词。

    通常应该选择具有相同分布的训练和评估/测试数据。偏差或偏差通常是有问题的。在极少数情况下,您可以训练模型做一件事并用它做其他事情。

    在您的情况下,模型可能会将权重分布在句子中的单词上。因此,当您选择一个单词时,您只会得到所代表权重的一小部分。

    要让它发挥作用,您应该在训练数据中添加单个单词示例。

    【讨论】:

    • 谢谢,但让我澄清一下。我用单个单词替换训练数据中的所有句子(主要是通过将现有句子拆分为单词)。所以我的训练数据只是单词。一旦我这样做(即使最终的单词列表没有改变),分类的效果就会大大恶化。所以我的问题是这样的分类是否只适用于单个单词。
    • 它可以工作,但我不希望它非常好。我认为在这种情况下人类也不会做得很好。为了使其正常工作,单词需要与标签密切相关。
    猜你喜欢
    • 2012-07-02
    • 2016-08-02
    • 2018-07-29
    • 2014-04-14
    • 2013-06-21
    • 2013-12-02
    • 2018-03-06
    • 2015-03-06
    • 2013-12-24
    相关资源
    最近更新 更多