【发布时间】:2013-03-05 08:40:57
【问题描述】:
我使用向量来表示单词周围的上下文,我需要将上下文相互比较。以下是我的问题的简化版本:
假设我有一个向量a=[1,1,15,2,0]。然后我有一个向量b=[0,0,15,0,0] 和c=[1,1,11,0,1]。当通过余弦相似度比较两个向量时,b 最接近a。但是,由于向量代表上下文 c 在我的情况下更有意义,因为 b 只是一个上下文,恰好与原始单词有一个共同的单词并且具有相同的分数。
我怎样才能将c 作为最相似的返回?另一个相似性度量?还是我的推理在某个地方有缺陷?
正如我所说,这是对我的问题的简化。我已经在对向量进行规范化,并使用对数似然对上下文词进行评分。
谢谢!
【问题讨论】:
-
这些向量中的数字代表什么?
标签: vector nlp cosine-similarity