输入路径不存在apache-spark [重复]答案

【问题标题】：input path does not exist apache-spark [duplicate]输入路径不存在apache-spark [重复]
【发布时间】：2019-09-11 02:12:09
【问题描述】：

我是 spark 新手，但我一直在尝试访问文件，但无论我如何调整代码以在我的计算机上定位文本文件，我都会不断收到相同的错误

lines = sc.textFile(r"Documents/python-spark-tutorial/in/word_count.txt").collect()

Traceback（最近一次调用最后一次）：文件“”，第 1 行，in 文件 “C:\spark\spark-2.4.4-bin-hadoop2.7\python\pyspark\rdd.py”，第 816 行，在收集 sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd()) 文件 "C:\spark\spark-2.4.4-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip\py4j\java_gateway.py", 第 1257 行，在 call 文件中 “C:\spark\spark-2.4.4-bin-hadoop2.7\python\pyspark\sql\utils.py”，行 63，在装饰返回 f(*a, kw) 文件“C:\spark\spark-2.4.4-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip\py4j\protocol.py” ，第 328 行，在 get_return_value py4j.protocol.Py4JJavaError: ***错误调用时发生 z:org.apache.spark.api.python.PythonRDD.collectAndServe。： org.apache.hadoop.mapred.InvalidInputException：输入路径不存在：文件：/C:/Users/Home/Documents/python-spark-tutorial/in/word_count.txt* 在 org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287) 在 org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)

【问题讨论】：

标签： python apache-spark

【解决方案1】：

试试下面的 sn-p。

sc.textFile("file:///path")

【讨论】：

感谢 shiva，我在意识到文件的扩展名是文本而不是 txt 后得到了解决方案，这是我的错误，现在解决了

【解决方案2】：

我的问题解决了，是我把文件扩展名弄乱了 txt 而不是文本

【讨论】：