【发布时间】:2016-11-20 06:34:42
【问题描述】:
我一直在阅读有关 Word2Vec 的论文(例如 this one),并且我认为我理解训练向量以最大化在相同上下文中找到其他单词的概率。
但是,我不明白为什么余弦是单词相似度的正确度量。余弦相似度表示两个向量指向相同的方向,但它们的大小可能不同。
例如,余弦相似度比较文档的词袋是有意义的。两个文档的长度可能不同,但单词的分布相似。
为什么不说欧几里得距离?
谁能解释为什么余弦相似度适用于 word2Vec?
【问题讨论】:
-
非常感谢亚伦和马丁。我想我对“相似的词最终彼此靠近”的说法感到困惑。我可以看到为什么反向传播相似的值会产生相似的上下文,因此出现在相似上下文中的单词应该产生相似的值。但是,我不明白为什么指向相同方向的值应该生成相同的上下文。但根据 Aaron 的链接,我猜他们会这样做。也许同样适用于所有维度的恒定比例会以某种方式抵消。
标签: nlp deep-learning word2vec