【发布时间】:2013-11-20 17:54:39
【问题描述】:
我怀疑答案是“视情况而定”,但是对于计划为Presto 使用哪种硬件,是否有任何一般性指导?
由于 Presto 使用协调器和一组工作器,并且工作器使用数据运行,我想主要问题将是有足够的 RAM 用于协调器,有足够的网络带宽用于从工作器发送到协调器的部分结果等。
如果您能提供一些关于如何适当调整大小的一般想法,我很想听听他们的意见。
【问题讨论】:
我怀疑答案是“视情况而定”,但是对于计划为Presto 使用哪种硬件,是否有任何一般性指导?
由于 Presto 使用协调器和一组工作器,并且工作器使用数据运行,我想主要问题将是有足够的 RAM 用于协调器,有足够的网络带宽用于从工作器发送到协调器的部分结果等。
如果您能提供一些关于如何适当调整大小的一般想法,我很想听听他们的意见。
【问题讨论】:
大多数人在他们已经拥有的 Hadoop 节点上运行 Trino (formerly PrestoSQL)。在 Facebook,我们通常在 Hadoop 集群中的几个节点上运行 Presto,以分散网络负载。
一般来说,对于新集群,我会采用行业标准比率:每个磁盘有 2 个内核和 2-4 gig 内存,如果您负担得起的话,可以使用 10 gigabit 网络。在您拥有几台机器(4 台以上)之后,使用您对数据的查询进行基准测试。如果您需要调整比率,这应该很明显。
在从头开始为集群调整硬件大小方面需要考虑一些事项:
2013 年,我们在 Facebook 运行 Presto 流程如下:
最近,我们运行了以下内容:
【讨论】: