【发布时间】:2018-02-27 21:21:32
【问题描述】:
感谢您阅读我的帖子。我有一个二进制矩阵(0,1),其中变量在列中,实例在行中。我试图通过总结每行中的元素来计算实例(行)的分数。但是,我希望独立地为每一行应用一个相异子集,其中我只对非冗余变量求和。对于几个变量 X 和 Y,我使用的相似性是
sim= |intersect(X,Y)| / | unity(X,Y)|
例如,如果row (i) 有 6 个正值(来自 6 个不同的变量),但有 2 对的相似度高于 0.8,则修正后的分数将为 4,而不是 6,其中每个冗余对中的一个变量被删除。
我知道我可以进行通用数据缩减以删除高度相关的变量,但就我而言,由于数据稀疏,我更喜欢保留它们,然后对每一行应用相似性校正。已经计算了平方相似度矩阵,我如何遍历行来纠正总和? 谢谢。
【问题讨论】:
-
谢谢@Uwe Plonus
标签: r