【问题标题】:How dataproc works with google cloud storage?dataproc 如何与谷歌云存储配合使用?
【发布时间】:2018-06-12 03:19:23
【问题描述】:

我正在寻找使用 GCS 的 google dataproc 的工作。我正在使用 dataproc 的 pyspark。数据从 GCS 读取并写入 GCS。但无法为我的用例找出最佳机器类型。问题

1) dataproc 上的 spark 是否将数据复制到本地磁盘?例如如果我正在处理 2 TB 的数据,如果我使用 4 个机器节点和 200 GB 硬盘可以吗?或者我至少应该提供可以保存输入数据的磁盘?

2) 如果本地磁盘根本没有使用,那么可以使用高内存低磁盘实例吗?

3) 如果使用本地磁盘,那么哪种实例类型适合以尽可能少的节点数处理 2 TB 数据?我的意思是用SSD好不好?

谢谢

马尼什

【问题讨论】:

    标签: apache-spark pyspark google-cloud-dataproc


    【解决方案1】:

    Spark 会将数据直接读取到内存和/或磁盘中,具体取决于您使用的是 RDD 还是 DataFrame。您应该至少有足够的磁盘来保存所有数据。如果您正在执行连接,则处理随机溢出所需的磁盘数量会增加。

    如果您通过过滤丢弃大量数据,则此等式会发生变化。

    您使用 pd-standard、pd-ssd 还是 local-ssd 取决于成本以及您的应用程序是否受 CPU 或 IO 限制。

    磁盘 IOPS 与磁盘大小成正比,因此不建议使用非常小的磁盘。请记住,磁盘(相对于 CPU)很便宜。

    同样的建议也适用于网络 IO:更多 CPU = 更多带宽。

    最后,默认 Dataproc 设置是开始试验和调整设置的合理位置。

    来源:https://cloud.google.com/compute/docs/disks/performance

    【讨论】:

    • “磁盘 IOPS 与磁盘大小成正比,因此不建议使用非常小的磁盘”您能否指导我查看说明这一点的官方文档?
    • 添加了源链接
    猜你喜欢
    • 1970-01-01
    • 2020-09-10
    • 2022-12-03
    • 1970-01-01
    • 2015-07-17
    • 1970-01-01
    • 1970-01-01
    • 2017-05-11
    • 2013-05-17
    相关资源
    最近更新 更多