【发布时间】:2018-10-31 14:16:26
【问题描述】:
我开发了一个文本分类脚本,与 nltk 书第 6 章中的示例非常相似。我想将客户响应分类为“订购”、“计费”等类别。
我有标记为用作训练集的响应。为简单起见,我只举两个训练数据的例子:
'订购新产品很容易' : '订购'
'我的帐单不正确' : '帐单'
在训练了 NB 分类器之后,假设我对以下文档进行了分类:'Service in this area stinks'。
分类器会给它一个标签,要么是 ordering,要么是 billing,尽管它在训练数据中都没有出现任何单词,所以我需要知道是否接受结果是否有意义。
我查看了 _proba_dict 并认为我可以使用它来确定它是否是一个很好的匹配,但我还没有真正找到一个可靠的方法来使用它。例如,有时它会为两个标签显示非常低的数字,这是您在本示例中所期望的,但有时不会。
更进一步,我们可能希望为单个文档分配多个标签。想一想:“订购很容易,但结账是一场噩梦”。在这种情况下,我可能想将其标记为订购和计费。同样,我认为我可以使用概率来确定是否有多个标签是合适的,但我仍然不知道如何做到这一点。
任何建议将不胜感激!
谢谢,
乔恩
【问题讨论】:
标签: nltk