【发布时间】:2014-10-27 19:51:30
【问题描述】:
我已经使用 MultinomialNB 使用 20 个域训练了我的分类器。
分类器对 20 个经过训练的数据集运行良好。
但问题是,假设我使用 20 个域中的文本进行查询,即使它对该文本进行了分类。我预计域外输入的概率为 0。
例如
查询:'核心 i7 是英特尔处理器'
我已经使用域 religion、sports、astronomy 域训练了数据。
查询不属于这些域中的任何一个,即使它为任何域提供 33% 的结果。
同样 Query : 'where is what',也归入上述领域。
如何为属于域外的查询显示 0 结果?或任何 scikit 函数,它给出了域外的概率余量?
还有什么方法可以在查询中查看stopwords 的边距?
【问题讨论】:
-
您可以使用置信度阈值。例如,您可以说,如果没有一个查询至少占 50% 的域,那么它是未定义的。
-
@AdrienNK:谢谢亲爱的,但如果可能的话,我正在寻找更好的解决方案
标签: machine-learning scikit-learn classification bayesian