【发布时间】:2019-06-12 09:22:20
【问题描述】:
我有一系列问题(抱歉,Google 文档很糟糕而且对用户不友好):
- 什么是 Google Cloud 上的 Amazon EMR、Dataproc 的等价物?我正在使用此文档来运行 Spark 作业:https://cloud.google.com/dataproc/docs/tutorials/gcs-connector-spark-tutorial
- 您能否通过 ssh 进入主机并在整个集群中运行 Spark,或者您已使用 Google 的
gcloud dataproc jobs submit ...命令? - 当我在本地运行 Spark 作业并尝试访问 Google Cloud Storage 时,我这样做没有问题。当我尝试使用 Dataproc 时,它崩溃了。
我已阅读:
- https://cloud.google.com/dataproc/docs/concepts/connectors/install-storage-connector
- reading google bucket data in spark
- "No Filesystem for Scheme: gs" when running spark job locally
到目前为止我已经尝试过:
- 我已将
gcs-connector-hadoop2-latest.jar和my_project.json放在/etc/hadoop/conf的主节点和工作节点上 -
我已在我的主节点和工作节点上将以下内容添加到
/etc/hadoop/conf/core-site.xml:<property> <name>google.cloud.auth.service.account.enable</name> <value>true</value> </property> <property> <name>my_project.json</name> <value>full path to JSON keyfile downloaded for service account</value> </property> -
我尝试运行以下命令:
sudo gcloud dataproc jobs submit pyspark spark.py --cluster=${CLUSTER}和
sudo gcloud dataproc jobs submit pyspark \ --jars /etc/hadoop/conf/gcs-connector-hadoop2-latest.jar \ spark.py --cluster=${CLUSTER} - 我不断收到以下错误:
没有用于方案的文件系统:gs
我不知道下一步该做什么。
【问题讨论】:
标签: apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc