【发布时间】:2016-02-02 10:20:03
【问题描述】:
我正在尝试在 java 中编写一个 spark 作业,该作业将打开与 Impala 的 jdbc 连接,让我加载一个表并执行其他操作。
我该怎么做?任何例子都会有很大帮助。谢谢!
【问题讨论】:
-
AFAIK Impala 使用 Hive Metastore,那么为什么不使用本机 HiveContext???
标签: apache-spark impala
我正在尝试在 java 中编写一个 spark 作业,该作业将打开与 Impala 的 jdbc 连接,让我加载一个表并执行其他操作。
我该怎么做?任何例子都会有很大帮助。谢谢!
【问题讨论】:
标签: apache-spark impala
如果必须使用 JDBC,您可能想尝试在 spark 驱动程序中执行查询。
例如在 python 中使用 impyla,你会在正常的元组列表中得到 impala 的结果。稍后您可以使用 parallelize() 将此结果转换为 spark rdd。
【讨论】: