【发布时间】:2021-07-03 01:12:40
【问题描述】:
我正在尝试解决多类单标签文档分类问题,将单个类分配给文档。文档是特定领域的技术文档,带有技术术语:
- Train:我有 19 个班级,每个班级都有一个文档。
- 目标:我有 77 个没有标签的文档,我想将其分类为 19 个已知类别。
- 预处理后的文档有 60-3000 个令牌。
- 我的整个语料库(19+77 个文档)有 65k 个术语(uni/bi/tri-grams),其中 4.5k 个共同术语(在训练和目标之间)
目前,我正在使用 tf-idf 矢量化器对文档进行矢量化,并将维度缩减为常用术语。然后在训练和目标之间做余弦相似度。
我想知道是否有更好的方法?由于训练中每个类中的单个文档,我无法使用 sklearn 分类器。关于可能的改进/方向的任何想法?特别是:
- 鉴于语料库较小,使用 word-embeddings/doc2vec 是否有意义?
- 从训练集中的术语生成合成训练数据是否有意义?
- 还有其他想法吗?
提前致谢!
【问题讨论】:
标签: nlp document-classification