【发布时间】:2015-06-22 06:33:01
【问题描述】:
为了更简单的理解,我用更小的例子来解释。
我有 2 套:
我有 10 个唯一的字符串 ID。 id1,id2,id3,id4,id5... id10
我有 3 个唯一的 c-id:cid1、cid2、cid3
2 个集合之间存在映射,但不在同一集合的值内。
映射说:
id1:cid1,cid2
id2:cid3
id3:cid1
... 很快..
我需要将一组 ids(strings) 与 cids(strings) 进行聚类,反之亦然。
现在我已经创建了一个如下所示的 csv 文件。 (类似于稀疏)
id1 , cid1
id1 , cid2
id3 , cid3
.
。
我在 Weka 中运行 k-means,但不确定这是否正确。所有这些 id 实际上是没有任何特定顺序的特征/属性。但是我表示的方式,列被视为属性值。如何将其转换为特征?
【问题讨论】:
-
必须在 weka 中吗? (您愿意尝试其他工具吗?)
-
我愿意尝试任何其他工具。请告诉我。谢谢
-
我已经添加了我的答案,如果有帮助请告诉我。
标签: cluster-analysis weka data-mining k-means