【发布时间】:2020-09-25 14:56:38
【问题描述】:
我正在尝试解析来自 hdfs 的可读 pdf。
我已经导入了所需的罐子
将pdf作为rdd导入后我遇到的问题如下
val data = sc.binaryFiles(“hdfs://xxxx/path/file.pdf)
上面创建了一个rdd,接下来我尝试拿rdd创建一个流
val stream : InputStream = new FileInputStream(data)
错误:使用替代方法重载方法构造函数 FileInputStream:
【问题讨论】:
-
这是我在某处发现的:link
-
为什么要转换HDFS文件->RDD->InputStream?有什么特别的原因吗?此外,最好知道您到底想要实现什么。您应该能够在不使用 spark 的情况下使用 HDFS lib 读取 HDFS 文件。参考这个例子:gist.github.com/ashrithr/…
标签: scala apache-spark apache-tika