【发布时间】:2016-12-30 05:34:13
【问题描述】:
我使用 spark 的 word2vec 算法来计算文本的文档向量。
然后我使用模型对象的findSynonyms 函数来获取几个单词的同义词。
我看到这样的东西:
w2vmodel.findSynonyms('science',4).show(5)
+------------+------------------+
| word| similarity|
+------------+------------------+
| physics| 1.714908638833209|
| fiction|1.5189824643358183|
|neuroscience|1.4968051528391833|
| psychology| 1.458865636374223|
+------------+------------------+
我不明白为什么余弦相似度被计算为大于 1。余弦相似度应该在 0 到 1 或最大 -1 到 +1 之间(取负角)。
为什么这里大于 1?这里出了什么问题?
【问题讨论】:
标签: python apache-spark pyspark