【发布时间】:2016-10-14 16:10:58
【问题描述】:
我们正在尝试通过 spark SQL 连接在 tableau 中生成报告,但我发现我们最终要连接到 hive 元存储。
如果是这种情况,这种新的 spark SQL 连接有什么优势。有没有办法使用 spark SQL 从 tableau 连接到持久的 spark 数据帧。
【问题讨论】:
标签: apache-spark hive tableau-api spark-dataframe
我们正在尝试通过 spark SQL 连接在 tableau 中生成报告,但我发现我们最终要连接到 hive 元存储。
如果是这种情况,这种新的 spark SQL 连接有什么优势。有没有办法使用 spark SQL 从 tableau 连接到持久的 spark 数据帧。
【问题讨论】:
标签: apache-spark hive tableau-api spark-dataframe
这里的问题是 Tableau 问题,而不是 Spark 问题。每次连接到数据库时,Spark SQL 连接器都会启动一个 Spark 作业。该 Spark 作业的一部分将底层 Hive 表加载到 Spark 管理的分布式内存中,每次您在图表上进行更改或选择时,刷新必须更深入到 Hive 元存储以通过 Spark 获取数据。这就是 Tableau 的设计方式。这里唯一的选择是为 Spotfire(或其他一些工具)更改 Tableau,通过预缓存底层 Hive 表,Spark SQL 连接器可以直接从 Spark 分布式内存中查询它,跳过加载步骤。 披露:我与 Spotfire 制造商没有任何关系
【讨论】: