【问题标题】:Document classification: Preprocessing and multiple labels文档分类:预处理和多标签
【发布时间】:2020-03-27 11:53:07
【问题描述】:
我对单词表示算法有疑问:
word2Vec、doc2Vec 和 Tf-IDF 哪一种算法更适合处理文本分类任务?
我的监督学习分类中使用的语料库由多个句子的列表组成,包括短句和长句。正如this thread 中所讨论的,doc2vec 与 word2vec 的选择取决于文档长度。至于 Tf-Idf vs. word embedding,更多的是文本表示的问题。
我的另一个问题是,如果对于同一个语料库,我有多个标签可以链接到其中的句子怎么办?如果我为同一个句子创建多个条目/标签,它会影响最终分类算法的决策。我如何告诉模型每个标签对文档的每个句子都相等?
提前谢谢你,
【问题讨论】:
标签:
word2vec
text-classification
tf-idf
doc2vec
【解决方案1】:
您应该尝试多种方法将句子转换为“特征向量”。没有硬性规定;最适合您的项目的方法在很大程度上取决于您的特定数据、问题域和分类目标。
(不要从其他答案中推断出指南——例如您链接的关于文档相似性而非分类的指南——作为您项目的最佳实践。)
要开始着手,您可能需要首先关注数据的一些简单的“二元分类”方面。例如,选择一个标签。训练所有文本,只是试图预测一个标签是否适用。
当您完成这项工作后,您了解了每个步骤——语料库准备、文本处理、特征向量化、分类训练、分类评估——然后您可以尝试将这些步骤扩展/调整为单标签分类(每个文本应该有一个唯一的标签)或多标签分类(每个文本可能有任意数量的组合标签)。