【发布时间】:2021-08-03 02:43:14
【问题描述】:
我正在开发一个文本分类器,并找到了一些可靠的选项。然而,我正在努力解决的一件事是处理不适合任何预定义类别的文本。这肯定会是我们在真实数据中看到的东西,所以我需要了解如何处理它。
我注意到,当我查看 predict_proba 输出时,(对于 naive bayes/boosting)值需要加起来为 1。我认为这是一个问题,因为如果文本不符合任何类别,算法仍然需要输出等于一,它仍然会为该文本分配一些任意标签,即使它确实不应该。
我已经提出了一些解决方案来获取 0.90 阈值内的最大概率并分配该类别,但我觉得这可能不是最好的方法。
有人对我可以尝试解决的一些方法有什么建议吗?
谢谢
【问题讨论】:
标签: python nlp text-classification