使用 spark 引擎执行 hive 查询答案

【问题标题】：hive query execution using spark engine使用 spark 引擎执行 hive 查询
【发布时间】：2016-08-24 11:43:09
【问题描述】：

我在 ubuntu 16.04 系统中安装了 HADOOP 2.7.2、HIVE 2.1、SCALA 2.11.8 和 SPARK 2.0。

Hadoop、hive 和 spark 运行良好。我可以毫无问题地连接到 hive cli 并使用 map-reduce。

我必须为 order by 子句提高我的 Hive 查询性能。

我只能使用 Hive cli，不能使用 spark-shell。

我正在尝试使用 spark 作为 hive 上的查询执行引擎

我正在按照link 的说明进行操作，我将 hive 中的一些属性设置为：

set hive.execution.engine=spark;
set spark.home=/usr/local/spark
set spark.master=spark://ip:7077

我以

的身份执行查询

select count(*) from table_name;

然后它抛出这个异常：

未能创建 Spark 客户端。

我也增加了 hive 客户端连接到 spark 的超时。但是，它没有用。

【问题讨论】：

你有什么问题？
鉴于这是“本地火花”“蜂巢查询”在 Google 上的热门搜索，为什么这个问题有这么多反对票，并且只回答而不做任何解释？

标签： apache-spark hive

【解决方案1】：

首先，我建议您使用 shell 并按照以下步骤操作：

spark-shell --master yarn-client --driver-memory 512m --executor-memory 512m

你可以运行：

import org.apache.spark.sql.hive.orc._
import org.apache.spark.sql._
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
hiveContext.sql("create table myTable (myField STRING) stored as orc")

如果可行，您可以使用 hiveContext 执行另一个查询 SQL

【讨论】：

我们在 hive 中使用 hbase 存储处理程序表。
你在哪里提到'hbase'？那你不要拒绝我的回复
我更新了我的问题...请检查...hbase 脱离上下文...@youe --- 抱歉我没有拒绝您的回复...事实上感谢您的回复。 ..