【问题标题】:How to give weightage to values while calculating similarities/disimilarities [closed]如何在计算相似性/不同性时赋予值权重[关闭]
【发布时间】:2014-11-30 03:55:10
【问题描述】:

如果我有以下数据:

Empid   Salary  Age Experience

1       25000   24  4
2       40000   27  5
3       55000   32  7
4       27000   25  5
5       53000   30  5

如果我使用 Min-Max 归一化技术对上述所有值进行归一化,使所有值都位于 0 和 1 之间,以获得以下归一化数据:

Empid   Salary        Age       Experience
1      0.0000333      0.1000000 0.2000000
2      0.5000000      0.4000000 0.4000000
3      1.0000000      0.9000000 0.8000000
4      0.0700000      0.2000000 0.4000000
5      0.9300000      0.7000000 0.4000000

如果我们现在计算每个员工与其他员工的欧几里得距离。如下表所示。

归一化后的欧几里得距离

    1           2           3           4           5
1   0.0000000   0.6164144   1.4141664   0.2333321   1.1273841
2   0.6164144   0.0000000   0.8123833   0.4772345   0.5270225
3   1.4141664   0.8123833   0.0000000   1.2332863   0.4521547
4   0.2333321   0.4772345   1.2332863   0.0000000   1.0005054
5   1.1273841   0.5270225   0.4521547   1.0005054   0.0000000

我的问题是,我们可以在计算相似性/不同性时给予权重吗?例如:我想给年龄变量更多的权重,因为它可能是一个强有力的预测因子。您能否提供您对这种情况的建议?

有哪些技术可以让一个属性比另一个属性更重要

请指教

谢谢!

【问题讨论】:

    标签: statistics normalization data-mining recommendation-engine


    【解决方案1】:

    归一化 = 特征加权

    至少在我们讨论线性归一化和特征加权时。

    如果您希望“年龄”属性的权重增加两倍,请将其标准化为 [0;2],而不是 [0;1]。

    是的,就是这么简单。

    或者之后在向量上使用常规的加权欧几里得距离。但是在标准化期间这样做会更便宜。

    【讨论】:

    • 明白了!只是为了让我知道,所以如果我决定使用余弦相似度来查找相似度..而不是像上述情况那样的欧几里德距离,只是想知道如果我决定权衡向量“后记”而不是标准化期间
    • 同样的事情。看看方程式就知道了。
    猜你喜欢
    • 1970-01-01
    • 2018-11-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-04-02
    • 2016-05-17
    • 1970-01-01
    • 2019-04-17
    相关资源
    最近更新 更多