【问题标题】:connecting to spark data frames in tableau连接到画面中的火花数据帧
【发布时间】:2016-10-14 16:10:58
【问题描述】:

我们正在尝试通过 spark SQL 连接在 tableau 中生成报告,但我发现我们最终要连接到 hive 元存储。

如果是这种情况,这种新的 spark SQL 连接有什么优势。有没有办法使用 spark SQL 从 tableau 连接到持久的 spark 数据帧。

【问题讨论】:

    标签: apache-spark hive tableau-api spark-dataframe


    【解决方案1】:

    这里的问题是 Tableau 问题,而不是 Spark 问题。每次连接到数据库时,Spark SQL 连接器都会启动一个 Spark 作业。该 Spark 作业的一部分将底层 Hive 表加载到 Spark 管理的分布式内存中,每次您在图表上进行更改或选择时,刷新必须更深入到 Hive 元存储以通过 Spark 获取数据。这就是 Tableau 的设计方式。这里唯一的选择是为 Spotfire(或其他一些工具)更改 Tableau,通过预缓存底层 Hive 表,Spark SQL 连接器可以直接从 Spark 分布式内存中查询它,跳过加载步骤。 披露:我与 Spotfire 制造商没有任何关系

    【讨论】:

      猜你喜欢
      • 2018-11-08
      • 2020-01-21
      • 1970-01-01
      • 2016-05-06
      • 1970-01-01
      • 1970-01-01
      • 2020-09-12
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多