dataproc 如何与谷歌云存储配合使用？答案

【问题标题】：How dataproc works with google cloud storage?dataproc 如何与谷歌云存储配合使用？
【发布时间】：2018-06-12 03:19:23
【问题描述】：

我正在寻找使用 GCS 的 google dataproc 的工作。我正在使用 dataproc 的 pyspark。数据从 GCS 读取并写入 GCS。但无法为我的用例找出最佳机器类型。问题

1) dataproc 上的 spark 是否将数据复制到本地磁盘？例如如果我正在处理 2 TB 的数据，如果我使用 4 个机器节点和 200 GB 硬盘可以吗？或者我至少应该提供可以保存输入数据的磁盘？

2) 如果本地磁盘根本没有使用，那么可以使用高内存低磁盘实例吗？

3) 如果使用本地磁盘，那么哪种实例类型适合以尽可能少的节点数处理 2 TB 数据？我的意思是用SSD好不好？

谢谢

马尼什

【问题讨论】：

【解决方案1】：

Spark 会将数据直接读取到内存和/或磁盘中，具体取决于您使用的是 RDD 还是 DataFrame。您应该至少有足够的磁盘来保存所有数据。如果您正在执行连接，则处理随机溢出所需的磁盘数量会增加。

如果您通过过滤丢弃大量数据，则此等式会发生变化。

您使用 pd-standard、pd-ssd 还是 local-ssd 取决于成本以及您的应用程序是否受 CPU 或 IO 限制。

磁盘 IOPS 与磁盘大小成正比，因此不建议使用非常小的磁盘。请记住，磁盘（相对于 CPU）很便宜。

同样的建议也适用于网络 IO：更多 CPU = 更多带宽。

最后，默认 Dataproc 设置是开始试验和调整设置的合理位置。

【讨论】：