使用文档相似性将文档分配到类别答案

【问题标题】：Assign document to a category using document similarity使用文档相似性将文档分配到类别
【发布时间】：2017-11-28 01:06:21
【问题描述】：

我正在用 python 开发一个 NLP 项目。

我正在从社交网络获得“对话”。对话由 post_text + comment_text + reply_text 组成（comment_text 和 reply_text 是可选的）。

我还有一个类别、参数列表，我想将对话“连接”到一个参数（或为每个参数获取权重）。

对于每个类别，我使用wikipedia python 包在维基百科上获得摘要。所以，它们代表了我的培训文件（对吗？）。

现在，我已经写下了一些要遵循的步骤，但也许我错了。

必须将每个训练文档转换为向量空间模型。我必须删除停用词和常用词。所以，我有一个词汇表。
必须将每个对话转换为向量空间模型，并且必须将每个标记分配给其词汇索引。我可以将所有向量空间模型保存在一个矩阵中。
现在，我必须对所有矩阵行执行 tf-idf（例如）。
- 在 tf-idf 中我要计算 tf、idf 和归一化矩阵吗？
因此，每一行代表每个对话的 tf-idf。现在，我必须执行余弦相似度（例如）以获得每个对话和一个训练文档之间的相似度。我必须对其进行迭代以获得对话和每个培训文档之间的相似性。

您对这些步骤有何看法？有没有我必须阅读的指南/方法/书籍以更好地理解这个问题？

【问题讨论】：

【解决方案1】：

您可以训练分类器，而不是从 Wikipedia 获取摘要并匹配相似度，该分类器给出的摘要可以预测它是哪个文档类别。您可以从 Wikipedia 中最简单的词袋表示的摘要开始进行分类，然后分析结果和准确性。之后可以继续使用更复杂的方法，例如词到向量或文档到向量以进行词表示，然后训练分类器。

建立分类模型后，为了给你的测试文档分配类别，你需要使用分类模型对其进行分类。

【讨论】：