【发布时间】:2017-11-28 01:06:21
【问题描述】:
我正在用 python 开发一个 NLP 项目。
我正在从社交网络获得“对话”。对话由 post_text + comment_text + reply_text 组成(comment_text 和 reply_text 是可选的)。
我还有一个类别、参数列表,我想将对话“连接”到一个参数(或为每个参数获取权重)。
对于每个类别,我使用wikipedia python 包在维基百科上获得摘要。所以,它们代表了我的培训文件(对吗?)。
现在,我已经写下了一些要遵循的步骤,但也许我错了。
- 必须将每个训练文档转换为向量空间模型。我必须删除停用词和常用词。所以,我有一个词汇表。
- 必须将每个对话转换为向量空间模型,并且必须将每个标记分配给其词汇索引。我可以将所有向量空间模型保存在一个矩阵中。
- 现在,我必须对所有矩阵行执行 tf-idf(例如)。
- 在 tf-idf 中我要计算 tf、idf 和归一化矩阵吗?
- 因此,每一行代表每个对话的 tf-idf。现在,我必须执行余弦相似度(例如)以获得每个对话和一个训练文档之间的相似度。我必须对其进行迭代以获得对话和每个培训文档之间的相似性。
您对这些步骤有何看法?有没有我必须阅读的指南/方法/书籍以更好地理解这个问题?
【问题讨论】:
标签: nlp tf-idf cosine-similarity