Rapidminer - 处理大型数据集时内存不足答案

【问题标题】：Rapidminer - Out of memory when working on large datasetsRapidminer - 处理大型数据集时内存不足
【发布时间】：2014-10-07 11:48:57
【问题描述】：

在 Rapidminer v.5.3013 中，我想实现以下目标：

我的进程在 RapidAnalytics 上运行，并有 8GB 的 RAM 专用于它，但它总是会因java.lang.OutOfMemoryError 而崩溃。

可能我必须遍历记录的较小子集并将结果的每个部分追加到目标表。有一个称为“循环数据集”的运算符，但我找不到合适的选项/参数来迭代我需要的方式。

有人知道如何解决这个问题吗？

【问题讨论】：

错误显示在哪一步？
它发生在第 2 步。我有一个“替换（字典）”运算符，它作为输入一方面需要 15 百万。记录，另一方面，作为字典输入，它迭代一个表，有大约 200 个正则表达式替换。

【解决方案1】：

您可以尝试 Loop Batches 运算符并将 Replace (Dictionary) 放入其中，然后执行追加。

【讨论】：