【问题标题】:Query execution taking time in Presto with pinot connector使用 Pinot 连接器在 Presto 中执行查询需要时间
【发布时间】:2020-11-29 01:04:31
【问题描述】:

我们使用 Apache Pinot 作为源系统。我们已将 10GB TPCH 数据加载到 Pinot 中。我们使用 Presto 作为查询执行引擎,使用 Pinot 连接器。

我们正在尝试简单的配置。 Presto 安装在具有 8 个 CPU 和 64GB RAM 的 CentOS 机器上。只有一个使用嵌入式协调器运行的工作者实例。 Pinot 安装在具有 4 个 CPU 和 64 GB RAM 的 CentOS 机器上。一个Controller,一个broker,一个server,一个zookeeper正在运行。

在 Lineitem 表上运行涉及分组汇总的查询需要 23 秒。将 2.3GB 数据从 Pinot 传输到 presto 大约需要 20 秒。

在另一个查询中,涉及 Lineitem、Nation、Partsupply、Region 与 group by cube 之间的连接大约需要 2 分钟。数据传输大约需要 25 秒。大部分剩余时间都花在了连接和聚合计算上。

这是 presto-pinot 的正常表现吗? 如果没有,我错过了什么? 我需要增加硬件吗?增加 presto/pinot 进程的数量? 我应该考虑修改任何特定的 presto 属性吗?

提前感谢您的帮助

【问题讨论】:

    标签: olap trino


    【解决方案1】:

    请列出查询,以便我们提供更好的答案。在较高级别上,Presto Pinot 连接器尝试将大部分计算(过滤、聚合、分组依据)下推到 Pinot,并尽量减少从 Pinot 提取所需的数据量。

    总有一些查询需要全表扫描,并且计算不能推送到 Pinot。在这种情况下,查询延迟可能会更高。 Pinot 最近添加了一个流式 API,可以进一步改善延迟。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-05-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多