【问题标题】:Spark and Tika for pdf parsing用于 pdf 解析的 Spark 和 Tika
【发布时间】:2020-09-25 14:56:38
【问题描述】:

我正在尝试解析来自 hdfs 的可读 pdf。

我已经导入了所需的罐子

将pdf作为rdd导入后我遇到的问题如下

val data = sc.binaryFiles(“hdfs://xxxx/path/file.pdf)

上面创建了一个rdd,接下来我尝试拿rdd创建一个流

val stream : InputStream = new FileInputStream(data)

错误:使用替代方法重载方法构造函数 FileInputStream:

【问题讨论】:

  • 这是我在某处发现的:link
  • 为什么要转换HDFS文件->RDD->InputStream?有什么特别的原因吗?此外,最好知道您到底想要实现什么。您应该能够在不使用 spark 的情况下使用 HDFS lib 读取 HDFS 文件。参考这个例子:gist.github.com/ashrithr/…

标签: scala apache-spark apache-tika


【解决方案1】:

我已经使用 spark 和 tika 完成了,这是我的代码

spark-shell --jars tika-app-1.8.jar

val binRDD = sc.binaryFiles("/hdfs_data_directory")

val textRDD = binRDD.map(file => {new org.apache.tika.Tika().parseToString(file._2.open( ))})

textRDD.saveAsTextFile("/output/")

【讨论】:

    猜你喜欢
    • 2018-10-21
    • 1970-01-01
    • 1970-01-01
    • 2023-03-12
    • 1970-01-01
    • 2023-04-05
    • 1970-01-01
    • 2011-12-30
    • 2016-01-09
    相关资源
    最近更新 更多