【问题标题】:running weka over a large arff dataset file在大型 arff 数据集文件上运行 weka
【发布时间】:2014-02-18 16:23:22
【问题描述】:

我有一个 arff 文件,其中包含 700 entries,每个 42000+ features 用于 NLP 相关项目。现在格式是密集格式,但如果使用稀疏表示,条目可以大大减少。 我在core 2 duo machine with 2 GB RAM 上运行,我得到memory out of range eception,尽管将限制增加到1536 MB。

如果我将 arff 文件转换为稀疏表示,或者我需要在功能更强大的机器上运行我的代码,会有什么好处吗?

【问题讨论】:

    标签: machine-learning nlp weka information-retrieval arff


    【解决方案1】:

    取决于算法的内部数据结构以及数据的处理方式(增量或全部在内存中),它是否需要更多内存。所以你需要的内存取决于算法。

    因此,稀疏表示对您来说更容易,因为它很紧凑,但据我所知,该算法将需要相同数量的内存来从相同的数据集创建模型。输入的格式应该对算法透明。

    【讨论】:

      猜你喜欢
      • 2011-07-26
      • 2014-08-12
      • 1970-01-01
      • 2021-10-16
      • 2015-04-30
      • 2015-06-24
      • 1970-01-01
      • 2016-03-06
      • 2015-01-21
      相关资源
      最近更新 更多