【发布时间】:2013-10-27 10:35:12
【问题描述】:
我正在尝试找到一种方法来相互比较 1000 多个汽车旅程,以便将相似的旅程聚集在一起。 (最好在 R 中)
在下面的示例中,每一行是一个人在某一天的旅程。
每一列代表汽车停止的一个点。不考虑时间,只考虑旅行的顺序。例如 stop1、stop2、stop3 ... stop10
数据将包含 NA,因为并非所有旅程都有 10 个站点。
示例: 矩阵(row.names 代表一个独特的人):
row.names, stop1, stop2, stop3, stop4, stop5, stop6 ... stop10
1 34 23 16 283 12 453 ...
2 34 23 16 283 12 453 ...
3 34 23 16 122 12 NA ...
4 62 72 90 11 NA NA ...
5 62 90 11 NA NA NA ...
6 46 39 46 83 73 3 ...
我是聚类的新手,但研究过不同的类型(Kmeans、层次结构)。
我曾尝试使用热图和平行坐标,但它们并没有产生我正在寻找的视觉效果 - 即不容易看到超过 1000 次旅程的团体,而且我认为它不适用于可能的旅程与其他相似。
我希望有人可以帮助提供一个示例,说明他们在哪里有类似的集群数据并解释它以便初学者清楚?
非常感谢
【问题讨论】:
标签: r categorical-data