【发布时间】:2018-04-08 01:17:44
【问题描述】:
我正在尝试运行一个 PySpark 脚本,当我在本地计算机上运行它时它运行良好。 问题是我想从 S3 获取输入文件。
无论我尝试什么,我似乎都无法找到我设置 ID 和密码的位置。我找到了一些关于特定文件的答案 例如:Locally reading S3 files through Spark (or better: pyspark) 但我想为整个 SparkContext 设置凭据,因为我在我的代码中重用了 sql 上下文。
所以问题是:如何将 AWS 访问密钥和密钥设置为 spark?
P.S 我尝试了 $SPARK_HOME/conf/hdfs-site.xml 和环境变量选项。两者都没有工作......
谢谢
【问题讨论】:
标签: amazon-web-services apache-spark amazon-s3 pyspark