【发布时间】:2019-09-24 07:39:24
【问题描述】:
我正在对标记为数千个类别/子类别的大型文本数据库(数百万个文本)进行分类(非常类似于亚马逊产品数据集)。
我的问题是,如果我可以通过创建多个模型(例如
- 一个模型获取主类(一个主模型)
-
为每个主要类别分离模型以获得最终的子类别。 (许多类别模型)
相比
一个涵盖所有文本和所有子类别的巨大模型。
我想知道在主要类别及其子类别的文本中使用的词汇是否更容易(并且规模更小)并且更精确地学习模型?但是如果主模型预测了错误的主类别,就会出现一个额外的问题——那么对正确子类别的搜索将没有机会预测正确的结果。
有这方面的研究吗? 有什么经验法则吗? 非常感谢!
【问题讨论】:
-
每个文本都属于一个类别,所以没有召回率/精度,对吗?如果文本分配正确,则计入准确性,没有误报/误报。
标签: python tensorflow machine-learning neural-network text-classification