【问题标题】:hive query execution using spark engine使用 spark 引擎执行 hive 查询
【发布时间】:2016-08-24 11:43:09
【问题描述】:

我在 ubuntu 16.04 系统中安装了 HADOOP 2.7.2、HIVE 2.1、SCALA 2.11.8 和 SPARK 2.0。

Hadoop、hive 和 spark 运行良好。我可以毫无问题地连接到 hive cli 并使用 map-reduce。

我必须为 order by 子句提高我的 Hive 查询性能。

我只能使用 Hive cli,不能使用 spark-shell。

我正在尝试使用 spark 作为 hive 上的查询执行引擎

我正在按照link 的说明进行操作,我将 hive 中的一些属性设置为:

set hive.execution.engine=spark;
set spark.home=/usr/local/spark
set spark.master=spark://ip:7077

我以

的身份执行查询
select count(*) from table_name;

然后它抛出这个异常:

未能创建 Spark 客户端。

我也增加了 hive 客户端连接到 spark 的超时。但是,它没有用。

【问题讨论】:

  • 你有什么问题?
  • 鉴于这是“本地火花”“蜂巢查询”在 Google 上的热门搜索,为什么这个问题有这么多反对票,并且只回答而不做任何解释?

标签: apache-spark hive


【解决方案1】:

首先,我建议您使用 shell 并按照以下步骤操作:

spark-shell --master yarn-client --driver-memory 512m --executor-memory 512m

你可以运行:

import org.apache.spark.sql.hive.orc._
import org.apache.spark.sql._
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
hiveContext.sql("create table myTable (myField STRING) stored as orc")

如果可行,您可以使用 hiveContext 执行另一个查询 SQL

【讨论】:

  • 我们在 hive 中使用 hbase 存储处理程序表。
  • 你在哪里提到'hbase'?那你不要拒绝我的回复
  • 我更新了我的问题...请检查...hbase 脱离上下文...@youe --- 抱歉我没有拒绝您的回复...事实上感谢您的回复。 ..
猜你喜欢
  • 2019-11-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-07-11
  • 1970-01-01
  • 2017-06-16
  • 1970-01-01
  • 2017-05-28
相关资源
最近更新 更多