【发布时间】:2015-10-11 11:16:36
【问题描述】:
我正在尝试使用 Linux 命令行工具“Poppler”从 pdf 文件中提取信息。我想为几个 Spark 工作人员的大量 PDF 执行此操作。我需要使用 Popples,而不是 PyPDF 或类似的东西。
有人知道如何在工人上安装 Poppler 吗?我知道我可以在 python 中进行命令行调用,并获取输出(或通过 Poppler lib 获取生成的文件),但是如何将它安装在每个工作人员上?我正在使用 spark 1.3.1 (databricks)。
谢谢!
【问题讨论】:
标签: python linux apache-spark pyspark poppler