从 Spark 作业中调用 JDBC 到 impala/hive 并加载表

【问题标题】：Calling JDBC to impala/hive from within a spark job and loading a table从 Spark 作业中调用 JDBC 到 impala/hive 并加载表
【发布时间】：2016-02-02 10:20:03
【问题描述】：

我正在尝试在 java 中编写一个 spark 作业，该作业将打开与 Impala 的 jdbc 连接，让我加载一个表并执行其他操作。

我该怎么做？任何例子都会有很大帮助。谢谢！

【问题讨论】：

AFAIK Impala 使用 Hive Metastore，那么为什么不使用本机 HiveContext？？？

标签： apache-spark impala

【解决方案1】：

如果必须使用 JDBC，您可能想尝试在 spark 驱动程序中执行查询。

例如在 python 中使用 impyla，你会在正常的元组列表中得到 impala 的结果。稍后您可以使用 parallelize() 将此结果转换为 spark rdd。

【讨论】：