【发布时间】:2018-06-12 03:19:23
【问题描述】:
我正在寻找使用 GCS 的 google dataproc 的工作。我正在使用 dataproc 的 pyspark。数据从 GCS 读取并写入 GCS。但无法为我的用例找出最佳机器类型。问题
1) dataproc 上的 spark 是否将数据复制到本地磁盘?例如如果我正在处理 2 TB 的数据,如果我使用 4 个机器节点和 200 GB 硬盘可以吗?或者我至少应该提供可以保存输入数据的磁盘?
2) 如果本地磁盘根本没有使用,那么可以使用高内存低磁盘实例吗?
3) 如果使用本地磁盘,那么哪种实例类型适合以尽可能少的节点数处理 2 TB 数据?我的意思是用SSD好不好?
谢谢
马尼什
【问题讨论】:
标签: apache-spark pyspark google-cloud-dataproc