用于 pdf 解析的 Spark 和 Tika答案

【问题标题】：Spark and Tika for pdf parsing用于 pdf 解析的 Spark 和 Tika
【发布时间】：2020-09-25 14:56:38
【问题描述】：

我正在尝试解析来自 hdfs 的可读 pdf。

我已经导入了所需的罐子

将pdf作为rdd导入后我遇到的问题如下

val data = sc.binaryFiles(“hdfs://xxxx/path/file.pdf)

上面创建了一个rdd，接下来我尝试拿rdd创建一个流

val stream : InputStream = new FileInputStream(data)

错误：使用替代方法重载方法构造函数 FileInputStream：

【问题讨论】：

这是我在某处发现的：link
为什么要转换HDFS文件->RDD->InputStream？有什么特别的原因吗？此外，最好知道您到底想要实现什么。您应该能够在不使用 spark 的情况下使用 HDFS lib 读取 HDFS 文件。参考这个例子：gist.github.com/ashrithr/…

标签： scala apache-spark apache-tika

【解决方案1】：

我已经使用 spark 和 tika 完成了，这是我的代码

spark-shell --jars tika-app-1.8.jar

val binRDD = sc.binaryFiles("/hdfs_data_directory")

val textRDD = binRDD.map(file => {new org.apache.tika.Tika().parseToString(file._2.open( ))})

textRDD.saveAsTextFile("/output/")

【讨论】：