【问题标题】:Document classification: Preprocessing and multiple labels文档分类:预处理和多标签
【发布时间】:2020-03-27 11:53:07
【问题描述】:

我对单词表示算法有疑问: word2Vec、doc2Vec 和 Tf-IDF 哪一种算法更适合处理文本分类任务? 我的监督学习分类中使用的语料库由多个句子的列表组成,包括短句和长句。正如this thread 中所讨论的,doc2vec 与 word2vec 的选择取决于文档长度。至于 Tf-Idf vs. word embedding,更多的是文本表示的问题。

我的另一个问题是,如果对于同一个语料库,我有多个标签可以链接到其中的句子怎么办?如果我为同一个句子创建多个条目/标签,它会影响最终分类算法的决策。我如何告诉模型每个标签对文档的每个句子都相等?

提前谢谢你,

【问题讨论】:

    标签: word2vec text-classification tf-idf doc2vec


    【解决方案1】:

    您应该尝试多种方法将句子转换为“特征向量”。没有硬性规定;最适合您的项目的方法在很大程度上取决于您的特定数据、问题域和分类目标。

    (不要从其他答案中推断出指南——例如您链接的关于文档相似性而非分类的指南——作为您项目的最佳实践。)

    要开始着手,您可能需要首先关注数据的一些简单的“二元分类”方面。例如,选择一个标签。训练所有文本,只是试图预测一个标签是否适用。

    当您完成这项工作后,您了解了每个步骤——语料库准备、文本处理、特征向量化、分类训练、分类评估——然后您可以尝试将这些步骤扩展/调整为单标签分类(每个文本应该有一个唯一的标签)或多标签分类(每个文本可能有任意数量的组合标签)。

    【讨论】:

      猜你喜欢
      • 2019-11-04
      • 2017-10-25
      • 2016-12-10
      • 2018-07-20
      • 2019-10-23
      • 2021-03-18
      • 2013-12-26
      • 2020-10-19
      相关资源
      最近更新 更多