【发布时间】:2012-03-03 07:16:31
【问题描述】:
我正在处理维度超过 10,000 的数据集。要使用 Weka,我需要将文本文件转换为 ARFF 格式,但由于使用稀疏 ARFF 格式后属性太多,文件大小太大。是否有与数据类似的方法来避免在 ARFF 文件的标题中写入如此多的属性标识符。
例如:
@attribute A1 数字
@attribute A2 数字
...
...
@attribute A10000 数字
【问题讨论】:
-
Maximum number of attributes supported by WEKA。这是与创建
arff文件(在这种情况下 sed 或 awk 可能会有所帮助)或直接在 weka 中处理它有关的问题吗? -
@chl 感谢您的回复,我能够生成 arff 文件,但文件大小非常大,因为我有 1,84,000 个属性。我想知道是否有任何方法可以避免在 arff 文件中添加这么多标题。所有属性都是数字的,所以我认为可能有办法。