【问题标题】:One huge or multiple small models for text classification用于文本分类的一个巨大或多个小型模型
【发布时间】:2019-09-24 07:39:24
【问题描述】:

我正在对标记为数千个类别/子类别的大型文本数据库(数百万个文本)进行分类(非常类似于亚马逊产品数据集)。

我的问题是,如果我可以通过创建多个模型(例如

  • 一个模型获取主类(一个主模型)
  • 为每个主要类别分离模型以获得最终的子类别。 (许多类别模型)

    相比

  • 一个涵盖所有文本和所有子类别的巨大模型。

我想知道在主要类别及其子类别的文本中使用的词汇是否更容易(并且规模更小)并且更精确地学习模型?但是如果主模型预测了错误的主类别,就会出现一个额外的问题——那么对正确子类别的搜索将没有机会预测正确的结果。

有这方面的研究吗? 有什么经验法则吗? 非常感谢!

【问题讨论】:

  • 每个文本都属于一个类别,所以没有召回率/精度,对吗?如果文本分配正确,则计入准确性,没有误报/误报。

标签: python tensorflow machine-learning neural-network text-classification


【解决方案1】:

不了解研究,但可以建议首先对主要模型使用精度和召回矩阵(使用多种建模技术),如果所有类别的任何模型都给出高于阈值的精度和召回值,那么可以说 99.5%你必须按照你的想法去做。如果您未能实现这一点,请不要担心尝试另一种方法。这是关于尝试和观察的。让我知道其他任何事情。谢谢。

【讨论】:

  • 目前大约 75-83%。问题是某些子类别是“稀疏的”,这意味着它们没有分配很多文本,而其他子类别确实有“数千”个文本,因此模型总是更容易与这些类别之一“匹配”。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-10-23
  • 2022-07-10
  • 1970-01-01
  • 2020-06-13
  • 1970-01-01
  • 2020-08-11
相关资源
最近更新 更多