【发布时间】:2017-03-25 06:00:57
【问题描述】:
我正在尝试使用 python spark 库读取 Amazon EMR 上的文本文件。该文件位于主目录(/home/hadoop/wet0)中,但 spark 似乎找不到它。
有问题的行:
lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])
错误:
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'
文件是否必须位于特定目录中?我在 AWS 网站上的任何地方都找不到这方面的信息。
【问题讨论】:
-
你愿意打印'hadoop fs -ls /user/hadoop/'的输出吗?
标签: python amazon-web-services hadoop apache-spark