【发布时间】:2014-11-30 03:55:10
【问题描述】:
如果我有以下数据:
Empid Salary Age Experience
1 25000 24 4
2 40000 27 5
3 55000 32 7
4 27000 25 5
5 53000 30 5
如果我使用 Min-Max 归一化技术对上述所有值进行归一化,使所有值都位于 0 和 1 之间,以获得以下归一化数据:
Empid Salary Age Experience
1 0.0000333 0.1000000 0.2000000
2 0.5000000 0.4000000 0.4000000
3 1.0000000 0.9000000 0.8000000
4 0.0700000 0.2000000 0.4000000
5 0.9300000 0.7000000 0.4000000
如果我们现在计算每个员工与其他员工的欧几里得距离。如下表所示。
归一化后的欧几里得距离
1 2 3 4 5
1 0.0000000 0.6164144 1.4141664 0.2333321 1.1273841
2 0.6164144 0.0000000 0.8123833 0.4772345 0.5270225
3 1.4141664 0.8123833 0.0000000 1.2332863 0.4521547
4 0.2333321 0.4772345 1.2332863 0.0000000 1.0005054
5 1.1273841 0.5270225 0.4521547 1.0005054 0.0000000
我的问题是,我们可以在计算相似性/不同性时给予权重吗?例如:我想给年龄变量更多的权重,因为它可能是一个强有力的预测因子。您能否提供您对这种情况的建议?
有哪些技术可以让一个属性比另一个属性更重要
请指教
谢谢!
【问题讨论】:
标签: statistics normalization data-mining recommendation-engine