【问题标题】:input path does not exist apache-spark [duplicate]输入路径不存在apache-spark [重复]
【发布时间】:2019-09-11 02:12:09
【问题描述】:

我是 spark 新手,但我一直在尝试访问文件,但无论我如何调整代码以在我的计算机上定位文本文件,我都会不断收到相同的错误

lines = sc.textFile(r"Documents/python-spark-tutorial/in/word_count.txt").collect()

Traceback(最近一次调用最后一次):文件“”,第 1 行,in 文件 “C:\spark\spark-2.4.4-bin-hadoop2.7\python\pyspark\rdd.py”,第 816 行, 在收集 sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd()) 文件 "C:\spark\spark-2.4.4-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip\py4j\java_gateway.py", 第 1257 行,在 call 文件中 “C:\spark\spark-2.4.4-bin-hadoop2.7\python\pyspark\sql\utils.py”,行 63,在装饰 返回 f(*a, kw) 文件“C:\spark\spark-2.4.4-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip\py4j\protocol.py” ,第 328 行,在 get_return_value py4j.protocol.Py4JJavaError: ***错误 调用时发生 z:org.apache.spark.api.python.PythonRDD.collectAndServe。 : org.apache.hadoop.mapred.InvalidInputException:输入路径不 存在: 文件:/C:/Users/Home/Documents/python-spark-tutorial/in/word_count.txt* 在 org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287) 在 org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)

【问题讨论】:

    标签: python apache-spark


    【解决方案1】:

    试试下面的 sn-p。

    sc.textFile("file:///path")
    

    【讨论】:

    • 感谢 shiva,我在意识到文件的扩展名是文本而不是 txt 后得到了解决方案,这是我的错误,现在解决了
    【解决方案2】:

    我的问题解决了,是我把文件扩展名弄乱了 txt 而不是文本

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-12-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多