【问题标题】:ARFF file extension to csv binary executablecsv 二进制可执行文件的 ARFF 文件扩展名
【发布时间】:2015-06-09 19:01:20
【问题描述】:

提前感谢您的帮助。

我正在寻找一个二进制可执行文件,用于在 bash 脚本中将 .arff 转换为 .csv。理想情况下,我可以按照

的方式运行
#! /bin/sh
... some stuff....
converstionFunc input.arff output.csv
... some more stuff ...

在自己写这篇文章时,我发现 weka 提供了一个库,我可以利用它来实现这一点。然而,尽管我寻找它,但我找不到它。我在我的 Mac 上安装了 weka,在四处寻找库后我仍然找不到它。

有谁知道我在哪里可以找到这样的可执行文件,或者可以指出我可以在哪里获得可以让我自己编写的 weka java 库?

【问题讨论】:

  • 可以接受 python 脚本吗?假设你的 arff 不是太复杂,这应该是一个很简单的转换。
  • 任何东西都可以接受。我有几千个要转换为 csv 的 arff 文件。理想情况下,我希望转换尽可能快,但我愿意接受任何可行的方法

标签: bash csv weka file-conversion arff


【解决方案1】:

克隆这个 github 存储库。它在“工具”子目录中包含一个 arff2csv 工具。

arff2csv 旨在在 unix 命令行工具的管道中运行。

https://github.com/jeroenjanssens/data-science-at-the-command-line

arff2csv 是一个单行的 shell-script 调用另一个调用 weka.jar 的 shell 脚本,

所以它需要在你的机器上安装java;并注意 arff2csv 需要 Weka 3.6 版。 (根据我的实验,较新的 v3.7 不起作用。)

脚本想要设置这个环境变量:

export WEKAPATH=/path/to/wekajar-dirname

然后你就可以了

cat /opt/smallapps/weka-stable/data/breast-cancer.arff | arff2csv > breast-cancer.arff.csv

大型 arff 需要一些时间来处理。

您可以阅读 J.Janssen 的书(请参阅 repo-README)了解更多信息。

【讨论】:

  • 我最终找到了一种解决方法,可以避免创建 arff 文件。您给出的解决方案似乎可以工作。
【解决方案2】:

尝试在网络上搜索arff2csv。看起来那里有很多实用程序。

【讨论】:

    猜你喜欢
    • 2010-09-21
    • 1970-01-01
    • 1970-01-01
    • 2013-12-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-03-20
    • 2021-01-13
    相关资源
    最近更新 更多