【发布时间】:2018-03-13 12:33:30
【问题描述】:
test-on Spark without internet
我正在使用 Tika 库来解析存储在 Hadoop Cluster 中的文档。
我正在使用以下代码:-
import tika
import urllib3
from tika import parser
data = parser.from_file("hdfs://localhost:50070/user/sample.txt")
在 linux 上,如果我给出一个本地路径,tika 能够解析,但对于 hdfs 路径,我得到一个
Spark I/O error: No such file or directory.
任何线索/替代方案都会非常有帮助。
【问题讨论】:
标签: hadoop pyspark hdfs apache-tika