【问题标题】:GCP Dataproc Base Docker ImageGCP Dataproc 基础 Docker 映像
【发布时间】:2021-12-01 22:17:04
【问题描述】:

有谁知道我在哪里可以找到 GCP 的数据处理程序的 docker 映像?我使用过 dataproc 集群,发现它们非常好,但我想在本地开发,并且只有在我准备好处理大型工作时才将我的计算转移到云中。我找到了一些与 pyspark 一起使用的 docker 映像,但我很想得到与 GCP dataproc 一样流畅的东西。

【问题讨论】:

    标签: docker google-cloud-platform dataproc


    【解决方案1】:

    您可以在这个cloud-dataproc Container Registry 中找到基础镜像,这些镜像是在Compute Image OS 之上构建的。从那里您可以使用 pull 命令在本地获取 Dataproc 基础映像。

    您可以使用 spark 文件夹下的基础镜像。可以使用以下命令提取所需的基础映像并在 Dataproc 映像上运行 spark 作业。我尝试了 Dataproc 2.0 映像,但可以在同一文件夹中找到其他版本。

    # Pulling the required image
    docker pull gcr.io/cloud-dataproc/spark/dataproc_2.0:preview-0.3
    
    # Sample PySpark job
    sudo docker run -v /home/sample-spark-app:/home/sample-spark-app d4e6c561de5b spark-submit --master local[4] /home/sample-spark-app/pi.py
    
    # Sample Spark (Java API) job
    sudo docker run -v /home/sample-spark-app:/home/sample-spark-app d4e6c561de5b spark-submit --class "JavaSparkPi" --master local[4] /home/sample-spark-app/target/simple-project-1.0.jar
    

    如果您想在基础镜像之上使用其他功能,请查看gcr.io/cloud-dataproc 下的其他 spark 镜像。

    【讨论】:

    • 我会运行docker pull gcr.io/cloud-dataproc/dpgke 来获取基础镜像中的哪一个是基础镜像,还是拉出所有这6 个镜像然后运行docker-compose?
    • 嗨@zorrrba,我已经更新了答案。
    猜你喜欢
    • 2021-12-11
    • 2018-11-26
    • 1970-01-01
    • 1970-01-01
    • 2017-05-03
    • 2017-03-19
    • 1970-01-01
    • 2020-02-26
    • 1970-01-01
    相关资源
    最近更新 更多