【问题标题】:How to handle unbalanced label data using FastText?如何使用 FastText 处理不平衡的标签数据?
【发布时间】:2018-11-19 18:11:54
【问题描述】:

在 FastText 中,我的标签不平衡。最好的处理方法是什么?

【问题讨论】:

  • 这个博客machinelearningmastery.com/… 给出了一些一般性的答案,你能添加一些关于域细节的细节吗?
  • 我没有看到任何令人满意的答案。有更好的分辨率吗?

标签: nlp word2vec fasttext


【解决方案1】:

Fasttext 似乎可以很好地处理不平衡的数据。 根据FAQ

还要注意,这种损失被认为是不平衡的类,即某些类比其他类更频繁。

【讨论】:

    【解决方案2】:

    在我们的例子中,我们有一个非常倾斜的数据集,其中包含 200 多个类,其中 20% 的类包含 80% 的所有数据 .

    在我们的数据中,即使有这种高度倾斜的数据,我们也对我们类别中的文本有一个清晰的定义

    示例: 多数类文本:“嘿,我需要计算机鼠标来打开互联网并发布 Stack Overflow中的编程答案

    少数民族课文:“嘿,请给我以下物品:鸡蛋生菜洋葱西红柿牛奶小麦"

    由于 FastText 处理 WordNGrams 和分层拆分,如果您有一个定义非常明确的类别,就像我上面的情况一样,由于算法的性质,不平衡不是问题。

    参考:Bag of Tricks for Efficient Text Classification - Armand Joulin、Edouard Grave、Piotr Bojanowski、Tomas Mikolov

    【讨论】:

      猜你喜欢
      • 2017-11-03
      • 1970-01-01
      • 2020-09-25
      • 2020-09-04
      • 2022-10-14
      • 2016-02-08
      • 2012-07-28
      • 2013-12-26
      • 2020-06-27
      相关资源
      最近更新 更多