【发布时间】:2020-08-11 16:19:50
【问题描述】:
我有一个分类器多类,使用 Sklearn 库提供的 LinearSVC 模型进行训练。
该模型提供了一个decision_function 方法,我将其与 numpy 库函数一起使用以正确解释结果集。
但是,我不明白为什么这种方法总是试图将总概率(在我的例子中为 1)分配到每个可能的类之间。
我预计我的分类器会有不同的行为。
我的意思是,例如,假设我有一段这样的短文本:
"There are a lot of types of virus and bacterias that cause disease."
但是我的分类器是用三种类型的文本训练的,比如说“数学”、“历史”和“技术”。
所以,当我尝试对其进行分类时,我认为这三个主题中的每一个的概率都非常接近于零(因此远不及 1)。
是否有更合适的方法或模型来获得我刚才描述的结果?
decision_function是不是我用错了方式?
有时,您的文本可能与用于训练分类器的任何主题无关,反之亦然,对于多个主题,概率可能约为 1。
我想我需要对这些问题有所了解(文本分类、非二进制分类等)
非常感谢您的帮助!
【问题讨论】:
标签: python machine-learning scikit-learn artificial-intelligence text-classification