【发布时间】:2016-04-20 13:52:00
【问题描述】:
我正在尝试使用 Mapreduce 将 PDF 转换为文本。请指导我使用 Mapreduce 执行 PDF。
【问题讨论】:
标签: mapreduce lucene apache-pig pdfbox apache-tika
我正在尝试使用 Mapreduce 将 PDF 转换为文本。请指导我使用 Mapreduce 执行 PDF。
【问题讨论】:
标签: mapreduce lucene apache-pig pdfbox apache-tika
如果您知道如何在不使用 mapreduce 的情况下将文本转换为 pdf(例如使用 python),那么您可以从 pig 调用相关的 (python) 函数。
Pig UDF manual 中描述了如何执行此操作
【讨论】: