【问题标题】:convert the PDF into text using MapReduce.使用 MapReduce 将 PDF 转换为文本。
【发布时间】:2016-04-20 13:52:00
【问题描述】:

我正在尝试使用 Mapreduce 将 PDF 转换为文本。请指导我使用 Mapreduce 执行 PDF。

【问题讨论】:

    标签: mapreduce lucene apache-pig pdfbox apache-tika


    【解决方案1】:

    如果您知道如何在不使用 mapreduce 的情况下将文本转换为 pdf(例如使用 python),那么您可以从 pig 调用相关的 (python) 函数。

    Pig UDF manual 中描述了如何执行此操作

    【讨论】:

      猜你喜欢
      • 2015-09-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-09-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多