【发布时间】:2019-09-11 02:12:09
【问题描述】:
我是 spark 新手,但我一直在尝试访问文件,但无论我如何调整代码以在我的计算机上定位文本文件,我都会不断收到相同的错误
lines = sc.textFile(r"Documents/python-spark-tutorial/in/word_count.txt").collect()
Traceback(最近一次调用最后一次):文件“”,第 1 行,in 文件 “C:\spark\spark-2.4.4-bin-hadoop2.7\python\pyspark\rdd.py”,第 816 行, 在收集 sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd()) 文件 "C:\spark\spark-2.4.4-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip\py4j\java_gateway.py", 第 1257 行,在 call 文件中 “C:\spark\spark-2.4.4-bin-hadoop2.7\python\pyspark\sql\utils.py”,行 63,在装饰 返回 f(*a, kw) 文件“C:\spark\spark-2.4.4-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip\py4j\protocol.py” ,第 328 行,在 get_return_value py4j.protocol.Py4JJavaError: ***错误 调用时发生 z:org.apache.spark.api.python.PythonRDD.collectAndServe。 : org.apache.hadoop.mapred.InvalidInputException:输入路径不 存在: 文件:/C:/Users/Home/Documents/python-spark-tutorial/in/word_count.txt* 在 org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287) 在 org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
【问题讨论】:
标签: python apache-spark