【发布时间】:2013-12-10 11:13:39
【问题描述】:
我正在使用 Jython 在 pig 中编写我的 Python UDF,但是当我的 UDF 的输入量很大时(即它超过了分配给我的 JVM 的内存),我遇到了内存问题。在 Pig 文档中,COUNT、MAX 等函数通过使用 Algebraic,更重要的是 Accumulator 接口克服了这一问题。 Accumulator 接口允许将来自 Pig 的数据以块的形式发送到 UDF,这适合我的问题。有没有人有任何使用 Jython 执行此操作的示例? (或任何将输入流式传输到 Python 的想法)任何帮助将不胜感激! :)
【问题讨论】:
标签: python hadoop apache-pig jython