在大型 arff 数据集文件上运行 weka答案

【问题标题】：running weka over a large arff dataset file在大型 arff 数据集文件上运行 weka
【发布时间】：2014-02-18 16:23:22
【问题描述】：

我有一个 arff 文件，其中包含 700 entries，每个 42000+ features 用于 NLP 相关项目。现在格式是密集格式，但如果使用稀疏表示，条目可以大大减少。我在core 2 duo machine with 2 GB RAM 上运行，我得到memory out of range eception，尽管将限制增加到1536 MB。

如果我将 arff 文件转换为稀疏表示，或者我需要在功能更强大的机器上运行我的代码，会有什么好处吗？

【问题讨论】：

标签： machine-learning nlp weka information-retrieval arff

【解决方案1】：

取决于算法的内部数据结构以及数据的处理方式（增量或全部在内存中），它是否需要更多内存。所以你需要的内存取决于算法。

因此，稀疏表示对您来说更容易，因为它很紧凑，但据我所知，该算法将需要相同数量的内存来从相同的数据集创建模型。输入的格式应该对算法透明。

【讨论】：