【问题标题】:Presto on Preemptible GCE instancesPreemptible GCE 实例上的 Presto
【发布时间】:2017-11-20 23:57:01
【问题描述】:
我正在运行一个包含 20 个 Preemptible GCE 实例的实例组来读取 Google 存储上的 ORC 文件,数据按小时分区,每小时大约 2GB。
- 我应该使用什么类型的实例?
- JVM 应该使用多少个 Ram?
- 我正在使用 80% CPU 和 10 分钟冷却时间的自动缩放配置,Presto 是否有更多字幕配置?
- 是否有解决服务器因资源不足而关闭的方法?
部分回复也将不胜感激。
【问题讨论】:
标签:
google-cloud-storage
presto
orc
google-compute-engine
【解决方案1】:
作为 PrestoDB 0.199 版本,Presto 没有谷歌云存储连接器,无法查询 GCS 数据。
关于硬件要求,我会在这里引用Terada doc。
内存
您应该为 Presto 的每个节点分配至少 16GB 的 RAM。但
对于大多数生产工作负载,建议使用 64GB。
网络带宽
建议在所有节点之间使用 10 Gb 以太网
集群。
其他建议
Presto 可以安装在任何正常配置的 Hadoop 集群上。
YARN 应配置为考虑专用于
快速。例如,如果一个节点有 64GB 的 RAM,也许你会
通常分配 60GB 给 YARN。如果您在该节点上安装 Presto 并且
给 Presto 32GB 的 RAM,那么你应该从 60GB 中减去 32GB
让 YARN 每个节点只分配 28GB。优化配置
可能会选择拥有单独的 Presto 和 Hadoop 节点。优化的
配置允许您为 Presto 提供更多内存,因此
例如,执行更大的连接查询。