【问题标题】:NLTK Text Categorization confidence Naive BayesNLTK 文本分类置信度朴素贝叶斯
【发布时间】:2018-10-31 14:16:26
【问题描述】:

我开发了一个文本分类脚本,与 nltk 书第 6 章中的示例非常相似。我想将客户响应分类为“订购”、“计费”等类别。

我有标记为用作训练集的响应。为简单起见,我只举两个训练数据的例子:

'订购新产品很容易' : '订购'

'我的帐单不正确' : '帐单'

在训练了 NB 分类器之后,假设我对以下文档进行了分类:'Service in this area stinks'。

分类器会给它一个标签,要么是 ordering,要么是 billing,尽管它在训练数据中都没有出现任何单词,所以我需要知道是否接受结果是否有意义。

我查看了 _proba_dict 并认为我可以使用它来确定它是否是一个很好的匹配,但我还没有真正找到一个可靠的方法来使用它。例如,有时它会为两个标签显示非常低的数字,这是您在本示例中所期望的,但有时不会。

更进一步,我们可能希望为单个文档分配多个标签。想一想:“订购很容易,但结账是一场噩梦”。在这种情况下,我可能想将其标记为订购和计费。同样,我认为我可以使用概率来确定是否有多个标签是合适的,但我仍然不知道如何做到这一点。

任何建议将不胜感激!

谢谢,

乔恩

【问题讨论】:

    标签: nltk


    【解决方案1】:

    我认为最简单的方法是添加第三个类别NONE,代表不计费或订购,并在这个类上放一些句子。然后您将遇到三类问题,您的系统将能够确定文档是否与计费或订购无关。

    如果您想允许多标签,第一种方法可以是使用三类分类器并对计费和订购的概率设置阈值。但是,这远非最佳。

    如果你想做真正的多标签预测,你有一篇描述完整 NLP 管道的文章here

    【讨论】:

    • 谢谢,我看看这个!
    猜你喜欢
    • 2015-12-20
    • 2016-09-28
    • 2017-04-19
    • 2012-12-05
    • 2016-08-02
    • 2018-07-29
    • 2017-08-30
    • 2012-04-01
    • 2015-03-06
    相关资源
    最近更新 更多