NLTK 文本分类置信度朴素贝叶斯答案

【问题标题】：NLTK Text Categorization confidence Naive BayesNLTK 文本分类置信度朴素贝叶斯
【发布时间】：2018-10-31 14:16:26
【问题描述】：

我开发了一个文本分类脚本，与 nltk 书第 6 章中的示例非常相似。我想将客户响应分类为“订购”、“计费”等类别。

我有标记为用作训练集的响应。为简单起见，我只举两个训练数据的例子：

'订购新产品很容易' : '订购'

'我的帐单不正确' : '帐单'

在训练了 NB 分类器之后，假设我对以下文档进行了分类：'Service in this area stinks'。

分类器会给它一个标签，要么是 ordering，要么是 billing，尽管它在训练数据中都没有出现任何单词，所以我需要知道是否接受结果是否有意义。

我查看了 _proba_dict 并认为我可以使用它来确定它是否是一个很好的匹配，但我还没有真正找到一个可靠的方法来使用它。例如，有时它会为两个标签显示非常低的数字，这是您在本示例中所期望的，但有时不会。

更进一步，我们可能希望为单个文档分配多个标签。想一想：“订购很容易，但结账是一场噩梦”。在这种情况下，我可能想将其标记为订购和计费。同样，我认为我可以使用概率来确定是否有多个标签是合适的，但我仍然不知道如何做到这一点。

任何建议将不胜感激！

谢谢，

乔恩

【问题讨论】：

标签： nltk

【解决方案1】：

我认为最简单的方法是添加第三个类别NONE，代表不计费或订购，并在这个类上放一些句子。然后您将遇到三类问题，您的系统将能够确定文档是否与计费或订购无关。

如果您想允许多标签，第一种方法可以是使用三类分类器并对计费和订购的概率设置阈值。但是，这远非最佳。

如果你想做真正的多标签预测，你有一篇描述完整 NLP 管道的文章here

【讨论】：