最合适的分析方法——聚类？答案

【问题标题】：Most appropriate analysis method - Clustering?最合适的分析方法——聚类？
【发布时间】：2018-08-24 00:54:35
【问题描述】：

我有 2 个大型数据框，其中包含代表 2 个独立调查的相似变量。每个数据帧中的一些行（参与者）相互对应，我想将这两者链接在一起。

两个数据框中都有一个索引，尽管该索引指示调查的位置（即区域）而不是单个 ID。合并是不可能的，因为在大多数情况下，不同参与者的索引值相同。

鉴于无法合并来自 2 个数据帧的索引值，我希望比较两个数据帧中的相似变量（二进制）（除了两个数据帧共有的索引值），以便给出我匹配的可能性最高。然后，我可以（有一些误差）匹配具有相似变量的最相似值的行并将它们合并在一起。

您认为这样做的合适方法是什么？聚类？

最好，詹姆斯

【问题讨论】：

【解决方案1】：

这显然不是集群。您不想要大量记录。

你要做的是一个近似的JOIN。

【讨论】：