【发布时间】:2017-05-10 11:28:21
【问题描述】:
我在 Cloudera QuickStart VM 上使用 CentOS。我在另一个问题 How to save DataFrame directly to Hive? 之后创建了一个 sbt 管理的 Spark 应用程序。
build.sbt
libraryDependencies += "org.apache.spark" %% "spark-core" % "1.5.2"
libraryDependencies += "org.apache.spark" % "spark-sql_2.10" % "1.5.2"
libraryDependencies += "org.apache.spark" % "spark-mllib_2.10" % "1.5.2"
libraryDependencies += "org.apache.spark" % "spark-streaming_2.10" % "1.5.2"
libraryDependencies += "org.apache.spark" %% "spark-hive" % "1.5.2"
我想使用 DataFrame 作为 Hive 表,如下所示:
recordDF.registerTempTable("mytempTable")
hiveContext.sql("create table productstore as select * from mytempTable");
我注意到我收到了错误:
根暂存目录:/tmp/hive 应该是可写的。当前权限为:rwx------
我关注了其他问题,并为 HDFS 中的/tmp/hive 设置了chmod 777。
我突然想到 spark 使用本地文件系统 /tmp/hive。
我为本地文件系统做了一个 chmod。
现在我收到错误
org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:file:/user/hive/warehouse/productstore 不是 目录或无法创建)
我想在 HDFS hive 仓库中存储一个 DataFrame。
【问题讨论】:
标签: apache-spark hive hdfs apache-spark-2.0