【发布时间】:2011-05-25 00:29:27
【问题描述】:
我正在做一个项目,我正在使用遗传算法生成最能描述文本的单词列表。
我目前正在使用余弦相似度来做到这一点,但它有两个缺陷:它对于目的来说太慢了,如果要比较的两个向量为零,它最终会得到人为的高相似度和一个不是很好的词向量好的。
对于其他更快/更少注意不存在的单词的其他措施有什么建议吗?
谢谢。
【问题讨论】:
-
不清楚您要的是什么,但您可能是在Levenshtein distance 或Hamming distance 之后?
标签: java optimization similarity trigonometry