【问题标题】:Spark cannot see Hive databases other than defaultSpark 看不到默认以外的 Hive 数据库
【发布时间】:2018-02-23 04:56:14
【问题描述】:

我尝试通过创建 HiveContext 来通过 Spark 2.2.1 查询 Hive 表。事实证明,Spark(无论我是通过 spark-submit 提交作业还是在 pyspark shell 中运行它 - 效果相同)都可以工作,但只能在 Hive 中看到默认数据库,而无法看到其他任何数据库。似乎这个问题已经有一段时间了,所有的建议都是关于调整诸如 --deploy-mode 和 --master 之类的 Spark 参数并将 hive-site.xml 文件显式传递给 Spark。

在阅读了我能找到的关于这个问题的所有内容后,我将 spark-submit 命令更改为以下内容:

/bin/spark-submit --driver-class-path /opt/sqljdbc_6.0/sqljdbc_6.0/enu/jre8/sqljdbc42.jar --deploy-mode cluster --files /usr/hdp/current/spark2-client/conf/hive-site.xml --master yarn /home/konstantin/myscript.py

(--driver-class-path 参数用于在脚本中查询 MSSQL 库,与问题无关)。

运行此命令后,我收到以下错误:

18/02/22 19:23:44 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/02/22 19:23:45 WARN shortcircuit.DomainSocketFactory: The short-circuit local reads feature cannot be used because libhadoop cannot be loaded.
Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig
    at org.apache.hadoop.yarn.client.api.TimelineClient.createTimelineClient(TimelineClient.java:55)
    at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.createTimelineClient(YarnClientImpl.java:181)
    at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.serviceInit(YarnClientImpl.java:168)
    at org.apache.hadoop.service.AbstractService.init(AbstractService.java:163)
    at org.apache.spark.deploy.yarn.Client.submitApplication(Client.scala:152)
    at org.apache.spark.deploy.yarn.Client.run(Client.scala:1109)
    at org.apache.spark.deploy.yarn.Client$.main(Client.scala:1168)
    at org.apache.spark.deploy.yarn.Client.main(Client.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:775)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: com.sun.jersey.api.client.config.ClientConfig
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:335)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 17 more

Process finished with exit code 0

根据我找到here 的建议,我下载了 jersey-bundle-1.17.1.jar,将其放在本地系统上,并使用 --jars 密钥将其传递给 spark-submit:

/bin/spark-submit --driver-class-path /opt/sqljdbc_6.0/sqljdbc_6.0/enu/jre8/sqljdbc42.jar --jars /home/konstantin/jersey-bundle-1.17.1.jar --deploy-mode cluster --files /usr/hdp/current/spark2-client/conf/hive-site.xml --master yarn /home/konstantin/myscript.py

这没有任何效果,我仍然得到与上面相同的 NoClassDefFoundError。因此,我无法评估初始问题的旧解决方案(Spark 看不到 Hive 数据库),因为我遇到了错误。

将不胜感激任何建议。

【问题讨论】:

  • 您的问题应该让我更有针对性:问题是否特定于yarn-cluster 模式?如果是,请检查stackoverflow.com/questions/45477155/…
  • “除了default 之外看不到任何数据库”到底是什么意思?您是否在 default 中看到了预期的表,或者它是空的 - 这意味着您实际上没有连接到 Metastore,因此 Spark 使用嵌入式 Derby DB 来模拟 Hive Metastore?
  • 您的错误与 Hive 无关,而与驱动程序或执行程序类路径有关。例如,HDP Spark2 不是 Spark 2.2.1,并且您忘记了 `--jars` 将 JAR 文件传递​​给执行程序
  • 在 hortonworks 上遇到与 pyspark 类似的问题。 spark.sql("show databases").show() 只返回 default

标签: hadoop apache-spark hive


【解决方案1】:

请检查纱线日志 spark.hive.warehouse 的属性设置。 如果它是 nil,那么你的 hive-site.xml 没有得到正确分发。

问题的出现主要是由于 hive-site.xml。请在 spark ui 环境选项卡中检查文件是否正确分发

【讨论】:

    猜你喜欢
    • 2015-11-06
    • 2017-11-13
    • 2018-12-10
    • 2021-07-01
    • 2018-10-21
    • 1970-01-01
    • 2019-06-11
    • 1970-01-01
    • 2020-09-03
    相关资源
    最近更新 更多