【发布时间】:2016-05-03 07:45:00
【问题描述】:
我有 100 个 pdf,但每个 pdf 有 40 页,即它没有被处理。实际上,我们正在尝试使用猪 Udf??我们可以使用 Pig Udf 拆分 PDF 文件吗??
【问题讨论】:
标签: apache-pig pdf-parsing pig-udf
我有 100 个 pdf,但每个 pdf 有 40 页,即它没有被处理。实际上,我们正在尝试使用猪 Udf??我们可以使用 Pig Udf 拆分 PDF 文件吗??
【问题讨论】:
标签: apache-pig pdf-parsing pig-udf
没有。虽然我对 Pig 不是很熟悉,但它似乎并不能原生地理解 PDF 文件格式,它是用于存储和分析数据,而不是处理文件。
您可以将 Pig 与另一个理解 PDF 的库结合使用以拆分 PDF,虽然拆分 PDF 不需要 Pig,但这完全取决于使用 Pig 的工作流程/目的。
【讨论】: