【发布时间】:2021-06-28 07:04:08
【问题描述】:
我正在寻找一种方法来使用机器学习来正确分类不适合预定义类的常见问题解答,并且应该归为“其他”类。
问题:在训练数据集中包含大约 1500 个常见问题解答,其中“其他”是最大的类(该类集中了大约 250 个问题)。这些通常是“奇怪的”问题,很少被问到。然而,当我训练一个模型时,“其他”类成为模型的最爱,只是因为与其他类相比的大小和方差。如果我现在使用这个模型对常见问题进行分类,那么相当数量的问题将被归为不应该的“其他”。
我想要什么:一个模型,它首先将问题与特定类进行分类,只有在找不到特定类的好匹配时才将其归为“其他”。
我的尝试:对“其他”类进行欠采样。这行得通,但我认为应该有更好的解决方案。
我将尝试使用常见问题解答的次数作为第二个预测指标(尚不确定如何),但我正在寻找任何开箱即用的解决方案或指针。谢谢!
【问题讨论】:
标签: machine-learning random-forest text-mining text-classification multiclass-classification