【发布时间】:2012-08-07 08:39:30
【问题描述】:
大家下午好,
我的数据格式如下:
ID : VALUE(用户分配的标签)
0001:“PC、THINKPAD、T500”
0002:“电话、手机、IPHONE、苹果、IPHONE5”
.......等等。
如何编写代码:
1) 首先,将它们转换成key:value格式的序列文件。
2) 那么,将上面的序列文件转换为将用于kmeans聚类的向量吗?
我正在检查 SequenceFileFromdDirectory 和 SparseVectorFromSequenceFiles,但现在这些似乎有点复杂,而且有点难以阅读。
那么,我想知道这里是否有人可以给我一个简单的示例代码,说明如何进行上述两种转换?
非常感谢!
【问题讨论】:
标签: vector mahout k-means sequencefile