【问题标题】:How to connect Spark-Notebook to Hive metastore?如何将 Spark-Notebook 连接到 Hive 元存储?
【发布时间】:2015-10-21 16:24:02
【问题描述】:

这是一个包含 Hadoop 2.5.0、Spark 1.2.0、Scala 2.10 的集群,由 CDH 5.3.2 提供。我用了compiled spark-notebook distro

Spark-Notebook 似乎默认找不到 Hive 元存储。

如何为 spark-notebook 指定hive-site.xml 的位置,以便它可以加载 Hive 元存储?

这是我尝试过的:

  1. 将 /etc/hive/conf 中的所有文件(包括 hive-site.xml)链接到当前目录

  2. 在 bash 中指定 SPARK_CONF_DIR 变量

【问题讨论】:

  • 您是否已经启动了 Hive Metastore 服务?

标签: hive apache-spark-sql cloudera-cdh spark-notebook apache-spark-1.2


【解决方案1】:

当你启动 notebook 时,使用你找到 hive-site.xml 的路径设置环境变量 EXTRA_CLASSPATH, 这对我有用:EXTRA_CLASSPATH=/path_of_my_mysql_connector/mysql-connector-java.jar:/my_hive_site.xml_directory/conf ./bin/spark-notebook 我也通过了 mysqlconnector 的 jar,因为我有 Hive with MySql。

我从这个链接中找到了一些信息:https://github.com/andypetrella/spark-notebook/issues/351

【讨论】:

    【解决方案2】:

    使用 CDH 5.5.0 快速入门 VM,解决方案如下:您需要引用 hive-site.xml 到提供对 hive 元存储的访问信息的笔记本。默认情况下,spark-notebooks 使用内部元存储。

    您可以在~/.bash_profile中定义如下环境变量:

    HADOOP_CONF_DIR=$HADOOP_CONF_DIR:/etc/hive/conf.cloudera.hive/
    export HADOOP_CON_DIR
    

    (确保你执行source ~/.bash_profile如果你没有打开一个新的终端终端)

    (这里给出解决方案:https://github.com/andypetrella/spark-notebook/issues/351

    【讨论】:

      猜你喜欢
      • 2017-09-17
      • 1970-01-01
      • 2023-03-14
      • 2019-08-15
      • 2019-10-18
      • 2019-11-02
      • 2015-11-05
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多