从 Spark 作业中调用 JDBC 到 impala/hive 并创建表

【问题标题】：Calling JDBC to impala/hive from within a spark job and creating a table从 Spark 作业中调用 JDBC 到 impala/hive 并创建表
【发布时间】：2014-12-25 10:09:18
【问题描述】：

我正在尝试在 scala 中编写一个 spark 作业，该作业将打开与 Impala 的 jdbc 连接，让我创建一个表并执行其他操作。

我该怎么做？任何例子都会有很大帮助。谢谢！

【问题讨论】：

嗨，你做到了吗？如果可以，请分享一下

标签： scala jdbc apache-spark impala

【解决方案1】：

val JDBCDriver = "com.cloudera.impala.jdbc41.Driver"
val ConnectionURL = "jdbc:impala://url.server.net:21050/default;auth=noSasl"

Class.forName(JDBCDriver).newInstance
val con = DriverManager.getConnection(ConnectionURL)
val stmt = con.createStatement()
val rs = stmt.executeQuery(query)

val resultSetList = Iterator.continually((rs.next(), rs)).takeWhile(_._1).map(r => {
    getRowFromResultSet(r._2) // (ResultSet) => (spark.sql.Row)
}).toList

sc.parallelize(resultSetList)

【讨论】：

非常感谢你的好例子！你有任何关于这在 Python 中的外观的信息吗？
很多人都在寻找什么