Apache Pig - Jython UDF 内存错误答案

【问题标题】：Apache Pig - Jython UDF Memory ErrorApache Pig - Jython UDF 内存错误
【发布时间】：2013-12-10 11:13:39
【问题描述】：

我正在使用 Jython 在 pig 中编写我的 Python UDF，但是当我的 UDF 的输入量很大时（即它超过了分配给我的 JVM 的内存），我遇到了内存问题。在 Pig 文档中，COUNT、MAX 等函数通过使用 Algebraic，更重要的是 Accumulator 接口克服了这一问题。 Accumulator 接口允许将来自 Pig 的数据以块的形式发送到 UDF，这适合我的问题。有没有人有任何使用 Jython 执行此操作的示例？（或任何将输入流式传输到 Python 的想法）任何帮助将不胜感激！ :)

【问题讨论】：

标签： python hadoop apache-pig jython

【解决方案1】：

Python UDF 不支持此类优化接口： http://pig.apache.org/docs/r0.11.1/udf.html#udfs

【讨论】：