【发布时间】:2020-11-29 01:04:31
【问题描述】:
我们使用 Apache Pinot 作为源系统。我们已将 10GB TPCH 数据加载到 Pinot 中。我们使用 Presto 作为查询执行引擎,使用 Pinot 连接器。
我们正在尝试简单的配置。 Presto 安装在具有 8 个 CPU 和 64GB RAM 的 CentOS 机器上。只有一个使用嵌入式协调器运行的工作者实例。 Pinot 安装在具有 4 个 CPU 和 64 GB RAM 的 CentOS 机器上。一个Controller,一个broker,一个server,一个zookeeper正在运行。
在 Lineitem 表上运行涉及分组汇总的查询需要 23 秒。将 2.3GB 数据从 Pinot 传输到 presto 大约需要 20 秒。
在另一个查询中,涉及 Lineitem、Nation、Partsupply、Region 与 group by cube 之间的连接大约需要 2 分钟。数据传输大约需要 25 秒。大部分剩余时间都花在了连接和聚合计算上。
这是 presto-pinot 的正常表现吗? 如果没有,我错过了什么? 我需要增加硬件吗?增加 presto/pinot 进程的数量? 我应该考虑修改任何特定的 presto 属性吗?
提前感谢您的帮助
【问题讨论】: