如何识别相似的旅程模式并将它们分组到 R 中？答案

【问题标题】：How to identify similar journey patterns and cluster these into groups in R?如何识别相似的旅程模式并将它们分组到 R 中？
【发布时间】：2013-10-27 10:35:12
【问题描述】：

我正在尝试找到一种方法来相互比较 1000 多个汽车旅程，以便将相似的旅程聚集在一起。（最好在 R 中）

在下面的示例中，每一行是一个人在某一天的旅程。

每一列代表汽车停止的一个点。不考虑时间，只考虑旅行的顺序。例如 stop1、stop2、stop3 ... stop10

数据将包含 NA，因为并非所有旅程都有 10 个站点。

示例：矩阵（row.names 代表一个独特的人）：

row.names, stop1, stop2, stop3, stop4, stop5, stop6 ... stop10
    1        34     23     16    283     12    453  ...   
    2        34     23     16    283     12    453  ...   
    3        34     23     16    122     12    NA   ...   
    4        62     72     90    11      NA    NA   ...   
    5        62     90     11    NA      NA    NA   ...   
    6        46     39     46    83      73    3    ...

我是聚类的新手，但研究过不同的类型（Kmeans、层次结构）。

我曾尝试使用热图和平行坐标，但它们并没有产生我正在寻找的视觉效果 - 即不容易看到超过 1000 次旅程的团体，而且我认为它不适用于可能的旅程与其他相似。

我希望有人可以帮助提供一个示例，说明他们在哪里有类似的集群数据并解释它以便初学者清楚？

非常感谢

【问题讨论】：

标签： r categorical-data

【解决方案1】：

您的数据集由位置组成，因此具有地理维度。获取每个点的坐标并绘制它们，而不是仅仅查看数字 ID。这可能比任何简单的聚类都提供更多信息。

或者，如果地理编码不可行，您可以将其视为关联规则（购物篮分析）问题。每个行程代表一个篮子，位置 ID 是每个篮子中的项目。

【讨论】：

不幸的是，我无法访问地理数据，也无法从当前数据中破译它。我对您关于使用 MB 分析方法的建议感兴趣。您能否提供更多关于我将如何在 R 中执行此操作的详细信息，以便找到类似的旅程模式？