【发布时间】:2018-06-26 23:02:14
【问题描述】:
我有一个文本文件,想为文件中的每个单词创建语义向量。然后我想提取大约 500 对单词的余弦相似度。 R 中最好的包是什么?
【问题讨论】:
-
您是在尝试基于单词表示(基于一种热编码)创建余弦相似度还是使用 Word2Vec 或其他一些单词嵌入?
-
基于单词表示。使用 Word2Vec 的优点/缺点是什么?
-
这真的取决于你的任务和你的数据。说如果你有更少的数据段;那么矩阵是稀疏的,几乎可以是奇异的。 Word2Vec 的优势是在 n 维空间中使用预先学习的词嵌入。 Word2Vec 空间上的余弦相似度在大多数情况下都非常有效。
标签: r vector nlp cosine-similarity