【发布时间】:2014-05-31 13:35:34
【问题描述】:
我有一个稀疏矩阵 .txt 文件,其中包含许多数字,但大多是 0。以下是来自此 .txt 文件的示例:
0 0 0.271178 0 0 0 0.538776 0 -0.631228 0 0 -0.501485 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.438643 0 0 0 0 0 0.287754 0 0 0 0 0 0 0 0 0 -0.498918 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.370479 0 0 0.1.10987 0 0 0.163637 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -0.261758 0 0 0 0.153415 0.17412 0 -0.129725 0 0.17598 0 0 0 0 0 0 0.56053 0 0 -0.211302 0 0 0 0 0 0 0 0.213277 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0698458 0 0 0 0 0 0 0 0 0 0. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.376654 0 0 -0.604655 0 0 0 0 0 0.301025 0 0 -0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.404718 0.610013 -0.286108 0 0.46045 0 0 0 0 0 0 0.0.193543 0 0 0 0 0 0 0 0.315063 0 0 -0.285598 0 0 0.206607 0
我需要做的是能够通过这个文件并将数据转换为WEKA's 可识别的文件格式 .arff,因此我可以在数据集上运行数据挖掘算法。有谁知道如何做到这一点?我在 StackOverflow 上发现了一些与我的问题类似的问题,但是,它们使用的是 AWK 语言的脚本,而我之前从未使用过 .awk 程序,因此我无法让这些程序正确运行。 以下是这些帖子的链接: 12
【问题讨论】:
-
输出文件应该是什么样子的?