【发布时间】:2011-02-21 01:04:15
【问题描述】:
我发现文档之间的余弦相似度.. 我是这样做的
D1=(8,0,0,1) 其中 8,0,0,1 是术语 t1, t2, t3 , t4 的 tf-idf 分数
D2=(7,0,0,1)
cos(theta) = (56 + 0 + 0 + 1) / sqrt(64 + 49) sqrt(1 +1)
结果是
cos(theta)= 5
现在我从这个值评估什么...我不明白 cos(theta)=5 表示它们之间的相似性...我做对了吗?
【问题讨论】:
-
cos(theta) 总是介于 -1 和 1 之间。你做错了什么。还有,这是作业吗?
标签: similarity trigonometry tf-idf