【问题标题】:Rapidminer - Out of memory when working on large datasetsRapidminer - 处理大型数据集时内存不足
【发布时间】:2014-10-07 11:48:57
【问题描述】:

在 Rapidminer v.5.3013 中,我想实现以下目标:

  1. 从数据库表中读取 1500 万条记录 - 仅一个属性,但最多包含 4096 个字符
  2. 对该数据集的正则表达式替换
  3. 根据朴素贝叶斯分类
  4. 将结果(也是 1500 万行)写入另一个表中

我的进程在 RapidAnalytics 上运行,并有 8GB 的​​ RAM 专用于它,但它总是会因java.lang.OutOfMemoryError 而崩溃。

可能我必须遍历记录的较小子集并将结果的每个部分追加到目标表。有一个称为“循环数据集”的运算符,但我找不到合适的选项/参数来迭代我需要的方式。

有人知道如何解决这个问题吗?

【问题讨论】:

  • 错误显示在哪一步?
  • 它发生在第 2 步。我有一个“替换(字典)”运算符,它作为输入一方面需要 15 百万。记录,另一方面,作为字典输入,它迭代一个表,有大约 200 个正则表达式替换。

标签: java out-of-memory rapidminer


【解决方案1】:

您可以尝试 Loop Batches 运算符并将 Replace (Dictionary) 放入其中,然后执行追加。

【讨论】:

  • 没错,Loop Batches 似乎正是我想要的。会试试的,谢谢!
  • 来自描述:此操作符从输入 ExampleSet 创建批次,并在每个批次上执行其子流程。这对于在数据库中非常大的数据集上应用运算符非常有用。
猜你喜欢
  • 2012-07-05
  • 2023-03-09
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-07-09
  • 2011-02-09
  • 2011-05-02
  • 1970-01-01
相关资源
最近更新 更多