我应该对频率数据使用哪种聚类算法？答案

【问题标题】：Which clustering algorithm should I use for frequency data?我应该对频率数据使用哪种聚类算法？
【发布时间】：2018-10-01 17:44:45
【问题描述】：

我正在尝试分析如下所示的旅游数据：

@DATA
2013-1-01,01,1,0,1,3,3,329.2172000000005
2013-1-01,01,1,0,1,3,4,1399.7826299999915
2013-1-01,01,1,1,2,3,2,10.50964

最后一个属性是满足所有其他条件（酒店、特定城市、特定晚数...）的旅客人数

我正在尝试创建游客集群来分割数据并获得有意义的见解，而且我对机器学习还有些陌生，所以我在这里有点挣扎。经过一些研究，由于我不知道应该将数据拆分到多少个集群中，我发现一种好的方法是使用自组织图来获取集群的数量，然后使用 K-means 或 EV 之类的方法。所以我使用 WEKA 并将 SOM 应用于数据，但看起来它形成了按所有属性（包括最后一个属性）分组的集群，而不是使用它进行加权。

我认为一个可能的解决方案是为频率属性中的每个单位创建一行数据，但这会使文件太大。有什么想法吗？

【问题讨论】：

也许可以在数据上应用诸如 J48 之类的树算法？（调整它以使树非常小） - 带/不带日期属性

标签： algorithm machine-learning cluster-analysis weka

【解决方案1】：

大多数实现不支持加权。可以这样做，但您需要更改代码。

由于你的最后一列不是整数，你不能只是重复行。

将每一行视为一个簇有什么问题？

但是您的其他属性似乎是某种类别。这样的数据往往聚集得非常糟糕。可能有 1 个差异，2 个差异，全都不同。这对于有意义的聚类来说太粗糙了。

您也有一个时间戳，所以您可能对随时间的变化感兴趣？

【讨论】：

我的属性是： ATTRIBUTE Date DATE "yyyyMMdd" ATTRIBUTE Destination NUMERIC ATTRIBUTE CountryOrigin NUMERIC ATTRIBUTE Housing NUMERIC ATTRIBUTE NumberNights NUMERIC ATTRIBUTE MeanTransport NUMERIC ATTRIBUTE TouristType NUMERIC ATTRIBUTE Tourists NUMERIC 2013 我有超过 400000 行。对于日期，我将其更改为数字以将其用作其他属性。那么，您会为这些数据建议哪种方法？谢谢您的回答。我也可以更改一些代码。
仅仅因为 arff 说“数字”并不意味着数字处理是合适的。例如，李克特量表不应该被这样对待。也不应该，例如邮政编码或月份。仅仅因为我们有 1 到 12 个月，并不意味着这些值的平均值是可以计算的。
我只是使用 weka date to numeric 函数来测试通过添加日期作为算法的额外属性会发生什么（因为 weka 的聚类算法默认不接受日期格式）