【问题标题】:Assign document to a category using document similarity使用文档相似性将文档分配到类别
【发布时间】:2017-11-28 01:06:21
【问题描述】:

我正在用 python 开发一个 NLP 项目。

我正在从社交网络获得“对话”。对话由 post_text + comment_text + reply_text 组成(comment_text 和 reply_text 是可选的)。

我还有一个类别、参数列表,我想将对话“连接”到一个参数(或为每个参数获取权重)。

对于每个类别,我使用wikipedia python 包在维基百科上获得摘要。所以,它们代表了我的培训文件(对吗?)。

现在,我已经写下了一些要遵循的步骤,但也许我错了。

  • 必须将每个训练文档转换为向量空间模型。我必须删除停用词和常用词。所以,我有一个词汇表。
  • 必须将每个对话转换为向量空间模型,并且必须将每个标记分配给其词汇索引。我可以将所有向量空间模型保存在一个矩阵中。
  • 现在,我必须对所有矩阵行执行 tf-idf(例如)。
    • 在 tf-idf 中我要计算 tf、idf 和归一化矩阵吗?
  • 因此,每一行代表每个对话的 tf-idf。现在,我必须执行余弦相似度(例如)以获得每个对话和一个训练文档之间的相似度。我必须对其进行迭代以获得对话和每个培训文档之间的相似性。

您对这些步骤有何看法?有没有我必须阅读的指南/方法/书籍以更好地理解这个问题?

【问题讨论】:

    标签: nlp tf-idf cosine-similarity


    【解决方案1】:

    您可以训练分类器,而不是从 Wikipedia 获取摘要并匹配相似度,该分类器给出的摘要可以预测它是哪个文档类别。您可以从 Wikipedia 中最简单的词袋表示的摘要开始进行分类,然后分析结果和准确性。之后可以继续使用更复杂的方法,例如词到向量或文档到向量以进行词表示,然后训练分类器。

    建立分类模型后,为了给你的测试文档分配类别,你需要使用分类模型对其进行分类。

    【讨论】:

      猜你喜欢
      • 2016-08-09
      • 2014-08-09
      • 2020-07-09
      • 2015-07-02
      • 2014-06-09
      • 2020-09-07
      • 1970-01-01
      • 1970-01-01
      • 2019-10-25
      相关资源
      最近更新 更多