使用朴素贝叶斯进行文本分类答案

【问题标题】：Text classification with Naive Bayes使用朴素贝叶斯进行文本分类
【发布时间】：2019-01-22 08:29:32
【问题描述】：

我正在学习 NLP，并注意到基于朴素贝叶斯的 TextBlob 分类（textblob 是在 NLTK 之上构建的）https://textblob.readthedocs.io/en/dev/classifiers.html 在训练数据是句子列表时工作正常，而在训练数据是单个单词时根本不起作用（其中每个单词和分配的分类）。

为什么？

【问题讨论】：

标签： python nlp nltk text-classification textblob

【解决方案1】：

因为训练数据中没有单个单词。

通常应该选择具有相同分布的训练和评估/测试数据。偏差或偏差通常是有问题的。在极少数情况下，您可以训练模型做一件事并用它做其他事情。

在您的情况下，模型可能会将权重分布在句子中的单词上。因此，当您选择一个单词时，您只会得到所代表权重的一小部分。

要让它发挥作用，您应该在训练数据中添加单个单词示例。

【讨论】：

谢谢，但让我澄清一下。我用单个单词替换训练数据中的所有句子（主要是通过将现有句子拆分为单词）。所以我的训练数据只是单词。一旦我这样做（即使最终的单词列表没有改变），分类的效果就会大大恶化。所以我的问题是这样的分类是否只适用于单个单词。
它可以工作，但我不希望它非常好。我认为在这种情况下人类也不会做得很好。为了使其正常工作，单词需要与标签密切相关。