【问题标题】:Calling JDBC to impala/hive from within a spark job and loading a table从 Spark 作业中调用 JDBC 到 impala/hive 并加载表
【发布时间】:2016-02-02 10:20:03
【问题描述】:

我正在尝试在 java 中编写一个 spark 作业,该作业将打开与 Impala 的 jdbc 连接,让我加载一个表并执行其他操作。

我该怎么做?任何例子都会有很大帮助。谢谢!

【问题讨论】:

  • AFAIK Impala 使用 Hive Metastore,那么为什么不使用本机 HiveContext???

标签: apache-spark impala


【解决方案1】:

如果必须使用 JDBC,您可能想尝试在 spark 驱动程序中执行查询。

例如在 python 中使用 impyla,你会在正常的元组列表中得到 impala 的结果。稍后您可以使用 parallelize() 将此结果转换为 spark rdd。

【讨论】:

    猜你喜欢
    • 2014-12-25
    • 2017-01-16
    • 2021-10-19
    • 1970-01-01
    • 1970-01-01
    • 2023-04-07
    • 2018-06-02
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多