【问题标题】:Most appropriate analysis method - Clustering?最合适的分析方法——聚类?
【发布时间】:2018-08-24 00:54:35
【问题描述】:

我有 2 个大型数据框,其中包含代表 2 个独立调查的相似变量。每个数据帧中的一些行(参与者)相互对应,我想将这两者链接在一起。

两个数据框中都有一个索引,尽管该索引指示调查的位置(即区域)而不是单个 ID。 合并是不可能的,因为在大多数情况下,不同参与者的索引值相同。

鉴于无法合并来自 2 个数据帧的索引值,我希望比较两个数据帧中的相似变量(二进制)(除了两个数据帧共有的索引值),以便给出我匹配的可能性最高。然后,我可以(有一些误差)匹配具有相似变量的最相似值的行并将它们合并在一起。

您认为这样做的合适方法是什么?聚类?

最好, 詹姆斯

【问题讨论】:

    标签: merge statistics cluster-analysis


    【解决方案1】:

    这显然不是集群。您不想要大量记录。

    你要做的是一个近似的JOIN。

    【讨论】:

      猜你喜欢
      • 2021-06-26
      • 2014-11-21
      • 2016-10-14
      • 2021-08-28
      • 2020-09-12
      • 2013-02-28
      • 2015-06-30
      相关资源
      最近更新 更多