【发布时间】:2014-10-07 11:48:57
【问题描述】:
在 Rapidminer v.5.3013 中,我想实现以下目标:
- 从数据库表中读取 1500 万条记录 - 仅一个属性,但最多包含 4096 个字符
- 对该数据集的正则表达式替换
- 根据朴素贝叶斯分类
- 将结果(也是 1500 万行)写入另一个表中
我的进程在 RapidAnalytics 上运行,并有 8GB 的 RAM 专用于它,但它总是会因java.lang.OutOfMemoryError 而崩溃。
可能我必须遍历记录的较小子集并将结果的每个部分追加到目标表。有一个称为“循环数据集”的运算符,但我找不到合适的选项/参数来迭代我需要的方式。
有人知道如何解决这个问题吗?
【问题讨论】:
-
错误显示在哪一步?
-
它发生在第 2 步。我有一个“替换(字典)”运算符,它作为输入一方面需要 15 百万。记录,另一方面,作为字典输入,它迭代一个表,有大约 200 个正则表达式替换。
标签: java out-of-memory rapidminer