【发布时间】:2018-11-19 18:11:54
【问题描述】:
在 FastText 中,我的标签不平衡。最好的处理方法是什么?
【问题讨论】:
-
这个博客machinelearningmastery.com/… 给出了一些一般性的答案,你能添加一些关于域细节的细节吗?
-
我没有看到任何令人满意的答案。有更好的分辨率吗?
在 FastText 中,我的标签不平衡。最好的处理方法是什么?
【问题讨论】:
Fasttext 似乎可以很好地处理不平衡的数据。 根据FAQ
还要注意,这种损失被认为是不平衡的类,即某些类比其他类更频繁。
【讨论】:
在我们的例子中,我们有一个非常倾斜的数据集,其中包含 200 多个类,其中 20% 的类包含 80% 的所有数据 .
在我们的数据中,即使有这种高度倾斜的数据,我们也对我们类别中的文本有一个清晰的定义。
示例: 多数类文本:“嘿,我需要计算机和鼠标来打开互联网并发布 Stack Overflow中的编程答案
少数民族课文:“嘿,请给我以下物品:鸡蛋,生菜,洋葱, 西红柿、牛奶和小麦?"
由于 FastText 处理 WordNGrams 和分层拆分,如果您有一个定义非常明确的类别,就像我上面的情况一样,由于算法的性质,不平衡不是问题。
参考:Bag of Tricks for Efficient Text Classification - Armand Joulin、Edouard Grave、Piotr Bojanowski、Tomas Mikolov
【讨论】: