文档分类：预处理和多标签答案

【问题标题】：Document classification: Preprocessing and multiple labels文档分类：预处理和多标签
【发布时间】：2020-03-27 11:53:07
【问题描述】：

我对单词表示算法有疑问： word2Vec、doc2Vec 和 Tf-IDF 哪一种算法更适合处理文本分类任务？我的监督学习分类中使用的语料库由多个句子的列表组成，包括短句和长句。正如this thread 中所讨论的，doc2vec 与 word2vec 的选择取决于文档长度。至于 Tf-Idf vs. word embedding，更多的是文本表示的问题。

我的另一个问题是，如果对于同一个语料库，我有多个标签可以链接到其中的句子怎么办？如果我为同一个句子创建多个条目/标签，它会影响最终分类算法的决策。我如何告诉模型每个标签对文档的每个句子都相等？

提前谢谢你，

【问题讨论】：

标签： word2vec text-classification tf-idf doc2vec

【解决方案1】：

您应该尝试多种方法将句子转换为“特征向量”。没有硬性规定；最适合您的项目的方法在很大程度上取决于您的特定数据、问题域和分类目标。

（不要从其他答案中推断出指南——例如您链接的关于文档相似性而非分类的指南——作为您项目的最佳实践。）

要开始着手，您可能需要首先关注数据的一些简单的“二元分类”方面。例如，选择一个标签。训练所有文本，只是试图预测一个标签是否适用。

当您完成这项工作后，您了解了每个步骤——语料库准备、文本处理、特征向量化、分类训练、分类评估——然后您可以尝试将这些步骤扩展/调整为单标签分类（每个文本应该有一个唯一的标签）或多标签分类（每个文本可能有任意数量的组合标签）。

【讨论】：