【发布时间】:2014-11-29 14:33:27
【问题描述】:
如果我有一个查询向量 A 和一个项目向量 B,如果有人可以指导我如何对向量进行加权/标准化(相同的策略),那就太好了。 向量 A 将具有以下组件(property1(二进制)、property2(二进制)、property 3(范围为 0 到 50 的 int)、property4(范围为(0 到 10 的 int)
向量 B 具有相同的属性
我知道使用余弦相似度的这两个向量之间的角度会给我两个向量之间的距离。我想根据相似性创建推荐。
但我不清楚在这种情况下如何规范化属性和/或向量,因为它是 binary+binary_int range +int range。另外,如果我想赋予一个属性比另一个更高的权重,我该怎么做。我有什么选择。
我在网上找到文档的余弦相似度示例,但在这种情况下,向量 A 和 B 不是文档,所以在这种情况下我没有使用 TF-idf。
请指教,
谢谢
【问题讨论】:
标签: statistics data-mining recommendation-engine cosine-similarity