【发布时间】:2021-12-01 22:17:04
【问题描述】:
有谁知道我在哪里可以找到 GCP 的数据处理程序的 docker 映像?我使用过 dataproc 集群,发现它们非常好,但我想在本地开发,并且只有在我准备好处理大型工作时才将我的计算转移到云中。我找到了一些与 pyspark 一起使用的 docker 映像,但我很想得到与 GCP dataproc 一样流畅的东西。
【问题讨论】:
标签: docker google-cloud-platform dataproc
有谁知道我在哪里可以找到 GCP 的数据处理程序的 docker 映像?我使用过 dataproc 集群,发现它们非常好,但我想在本地开发,并且只有在我准备好处理大型工作时才将我的计算转移到云中。我找到了一些与 pyspark 一起使用的 docker 映像,但我很想得到与 GCP dataproc 一样流畅的东西。
【问题讨论】:
标签: docker google-cloud-platform dataproc
您可以在这个cloud-dataproc Container Registry 中找到基础镜像,这些镜像是在Compute Image OS 之上构建的。从那里您可以使用 pull 命令在本地获取 Dataproc 基础映像。
您可以使用 spark 文件夹下的基础镜像。可以使用以下命令提取所需的基础映像并在 Dataproc 映像上运行 spark 作业。我尝试了 Dataproc 2.0 映像,但可以在同一文件夹中找到其他版本。
# Pulling the required image
docker pull gcr.io/cloud-dataproc/spark/dataproc_2.0:preview-0.3
# Sample PySpark job
sudo docker run -v /home/sample-spark-app:/home/sample-spark-app d4e6c561de5b spark-submit --master local[4] /home/sample-spark-app/pi.py
# Sample Spark (Java API) job
sudo docker run -v /home/sample-spark-app:/home/sample-spark-app d4e6c561de5b spark-submit --class "JavaSparkPi" --master local[4] /home/sample-spark-app/target/simple-project-1.0.jar
如果您想在基础镜像之上使用其他功能,请查看gcr.io/cloud-dataproc 下的其他 spark 镜像。
【讨论】:
docker pull gcr.io/cloud-dataproc/dpgke 来获取基础镜像中的哪一个是基础镜像,还是拉出所有这6 个镜像然后运行docker-compose?