如何将 Spark-Notebook 连接到 Hive 元存储？答案

【问题标题】：How to connect Spark-Notebook to Hive metastore?如何将 Spark-Notebook 连接到 Hive 元存储？
【发布时间】：2015-10-21 16:24:02
【问题描述】：

这是一个包含 Hadoop 2.5.0、Spark 1.2.0、Scala 2.10 的集群，由 CDH 5.3.2 提供。我用了compiled spark-notebook distro

Spark-Notebook 似乎默认找不到 Hive 元存储。

如何为 spark-notebook 指定hive-site.xml 的位置，以便它可以加载 Hive 元存储？

这是我尝试过的：

将 /etc/hive/conf 中的所有文件（包括 hive-site.xml）链接到当前目录
在 bash 中指定 SPARK_CONF_DIR 变量

【问题讨论】：

您是否已经启动了 Hive Metastore 服务？

标签： hive apache-spark-sql cloudera-cdh spark-notebook apache-spark-1.2

【解决方案1】：

当你启动 notebook 时，使用你找到 hive-site.xml 的路径设置环境变量 EXTRA_CLASSPATH，这对我有用：EXTRA_CLASSPATH=/path_of_my_mysql_connector/mysql-connector-java.jar:/my_hive_site.xml_directory/conf ./bin/spark-notebook 我也通过了 mysqlconnector 的 jar，因为我有 Hive with MySql。

我从这个链接中找到了一些信息：https://github.com/andypetrella/spark-notebook/issues/351

【讨论】：

【解决方案2】：

使用 CDH 5.5.0 快速入门 VM，解决方案如下：您需要引用 hive-site.xml 到提供对 hive 元存储的访问信息的笔记本。默认情况下，spark-notebooks 使用内部元存储。

您可以在~/.bash_profile中定义如下环境变量：

HADOOP_CONF_DIR=$HADOOP_CONF_DIR:/etc/hive/conf.cloudera.hive/
export HADOOP_CON_DIR

（确保你执行source ~/.bash_profile如果你没有打开一个新的终端终端）

（这里给出解决方案：https://github.com/andypetrella/spark-notebook/issues/351）

【讨论】：