如何在计算相似性/不同性时赋予值权重[关闭]答案

【问题标题】：How to give weightage to values while calculating similarities/disimilarities [closed]如何在计算相似性/不同性时赋予值权重[关闭]
【发布时间】：2014-11-30 03:55:10
【问题描述】：

如果我有以下数据：

Empid   Salary  Age Experience

1       25000   24  4
2       40000   27  5
3       55000   32  7
4       27000   25  5
5       53000   30  5

如果我使用 Min-Max 归一化技术对上述所有值进行归一化，使所有值都位于 0 和 1 之间，以获得以下归一化数据：

Empid   Salary        Age       Experience
1      0.0000333      0.1000000 0.2000000
2      0.5000000      0.4000000 0.4000000
3      1.0000000      0.9000000 0.8000000
4      0.0700000      0.2000000 0.4000000
5      0.9300000      0.7000000 0.4000000

如果我们现在计算每个员工与其他员工的欧几里得距离。如下表所示。

归一化后的欧几里得距离

    1           2           3           4           5
1   0.0000000   0.6164144   1.4141664   0.2333321   1.1273841
2   0.6164144   0.0000000   0.8123833   0.4772345   0.5270225
3   1.4141664   0.8123833   0.0000000   1.2332863   0.4521547
4   0.2333321   0.4772345   1.2332863   0.0000000   1.0005054
5   1.1273841   0.5270225   0.4521547   1.0005054   0.0000000

我的问题是，我们可以在计算相似性/不同性时给予权重吗？例如：我想给年龄变量更多的权重，因为它可能是一个强有力的预测因子。您能否提供您对这种情况的建议？

有哪些技术可以让一个属性比另一个属性更重要

请指教

谢谢！

【问题讨论】：

标签： statistics normalization data-mining recommendation-engine

【解决方案1】：

归一化 = 特征加权

至少在我们讨论线性归一化和特征加权时。

如果您希望“年龄”属性的权重增加两倍，请将其标准化为 [0;2]，而不是 [0;1]。

是的，就是这么简单。

或者之后在向量上使用常规的加权欧几里得距离。但是在标准化期间这样做会更便宜。

【讨论】：

明白了！只是为了让我知道，所以如果我决定使用余弦相似度来查找相似度..而不是像上述情况那样的欧几里德距离，只是想知道如果我决定权衡向量“后记”而不是标准化期间
同样的事情。看看方程式就知道了。