【发布时间】:2013-08-06 20:01:25
【问题描述】:
我正在尝试计算大量动态文本文档之间的相似度。对于静态集,余弦相似度 + tf-idf 之类的东西会很好用。但是,我正在寻找一种方案,该方案允许我添加新文档而无需重新计算整个相似性集。有没有这样的算法?
【问题讨论】:
标签: algorithm bigdata computer-science
我正在尝试计算大量动态文本文档之间的相似度。对于静态集,余弦相似度 + tf-idf 之类的东西会很好用。但是,我正在寻找一种方案,该方案允许我添加新文档而无需重新计算整个相似性集。有没有这样的算法?
【问题讨论】:
标签: algorithm bigdata computer-science
您似乎已接近解决方案。只需存储 f(document) 结果的每个实例,然后组合结果。
映射每个文档的词频并存储:
d0:
"the" : 70,
"quick" : 22,
"fox" : 1
d1:
"the" : 42,
"lazy" : 2,
"dog" : 13
合并文档并在聚合上评估:
d0_d1:
"the" : 112.
"lazy" : 2,
"dog" : 13,
"quick" : 22,
"fox" : 1
tf_idf(d0_d1)
【讨论】: