【发布时间】:2019-11-04 21:32:46
【问题描述】:
我正在使用具有训练集和测试集的多类文本分类数据集。训练集中大约有 470 个唯一标签,测试集中大约有 250 个唯一标签。 (这 470+ 250 个独特的标签来自一个大小为 400 万的大标签集。)
大约有 30 个标签仅在测试集中,但不在训练集中。
我是否需要将每个标签编码为一个大小为 400 万而不是 450 的热向量?以便我也可以处理那些丢失的 30 个标签
【问题讨论】:
-
模型无法预测它从未见过的标签。因此,您应该丢弃那些具有此类标签的条目。
-
训练集中有大约 470 个唯一标签,测试集中有大约 250 个唯一标签。 (这 470+ 250 个独特的标签来自一个大小为 400 万的大标签集。)
标签: keras scikit-learn deep-learning nlp