Spark 作为 Hive 的引擎答案

【问题标题】：Spark as an engine for HiveSpark 作为 Hive 的引擎
【发布时间】：2015-05-04 17:38:12
【问题描述】：

我们可以使用 Spark 作为 Hive 的引擎吗？

我们在 Hive 中有许多遗留系统和代码库，并希望将 Spark 与 Hive 一起使用。

最好的，

【问题讨论】：

Hive on Spark 仍在进行中。你可以在这里追踪它：HIVE-7292

标签： hadoop hive apache-spark bigdata

【解决方案1】：

您可以在 spark 执行引擎上执行 hive 查询。Hive 具有大量依赖项，这些依赖项不包含在默认的 Spark 分发中。如果可以在类路径中找到 Hive 依赖项，Spark 将自动加载它们。

您可以在此处找到代码： spark-hive-example

【讨论】：

【解决方案2】：

两个选项，如果你想在 spark 上运行 hive，这是可能的，但这是一个非常 alpha 的功能：https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

恕我直言，您最好使用 Spark SQL 和指定的 HiveContext，您可以这样使用：

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
sqlContext.sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sqlContext.sql("FROM src SELECT key, value").collect().foreach(println)

总而言之，我建议您使用 Spark SQL 加载 Hive 表并重用所有 Hive 查询，但要通过 Spark SQL 的 API。

您可以在这里找到更多信息：http://spark.apache.org/docs/1.2.0/sql-programming-guide.html

这能回答你的问题吗？

问候，

【讨论】：

查看此链接：cwiki.apache.org/confluence/display/Hive/…