【发布时间】:2018-08-24 00:54:35
【问题描述】:
我有 2 个大型数据框,其中包含代表 2 个独立调查的相似变量。每个数据帧中的一些行(参与者)相互对应,我想将这两者链接在一起。
两个数据框中都有一个索引,尽管该索引指示调查的位置(即区域)而不是单个 ID。 合并是不可能的,因为在大多数情况下,不同参与者的索引值相同。
鉴于无法合并来自 2 个数据帧的索引值,我希望比较两个数据帧中的相似变量(二进制)(除了两个数据帧共有的索引值),以便给出我匹配的可能性最高。然后,我可以(有一些误差)匹配具有相似变量的最相似值的行并将它们合并在一起。
您认为这样做的合适方法是什么?聚类?
最好, 詹姆斯
【问题讨论】:
标签: merge statistics cluster-analysis