如何使用 FastText 处理不平衡的标签数据？答案

【问题标题】：How to handle unbalanced label data using FastText?如何使用 FastText 处理不平衡的标签数据？
【发布时间】：2018-11-19 18:11:54
【问题描述】：

在 FastText 中，我的标签不平衡。最好的处理方法是什么？

【问题讨论】：

【解决方案1】：

Fasttext 似乎可以很好地处理不平衡的数据。根据FAQ

还要注意，这种损失被认为是不平衡的类，即某些类比其他类更频繁。

【讨论】：

【解决方案2】：

在我们的例子中，我们有一个非常倾斜的数据集，其中包含 200 多个类，其中 20% 的类包含 80% 的所有数据 .

在我们的数据中，即使有这种高度倾斜的数据，我们也对我们类别中的文本有一个清晰的定义。

示例：多数类文本：“嘿，我需要计算机和鼠标来打开互联网并发布 Stack Overflow中的编程答案

少数民族课文：“嘿，请给我以下物品：鸡蛋，生菜，洋葱， 西红柿、牛奶和小麦？"

由于 FastText 处理 WordNGrams 和分层拆分，如果您有一个定义非常明确的类别，就像我上面的情况一样，由于算法的性质，不平衡不是问题。

参考：Bag of Tricks for Efficient Text Classification - Armand Joulin、Edouard Grave、Piotr Bojanowski、Tomas Mikolov

【讨论】：