【问题标题】:Spark SQL "No input paths specified in job", but can printSchemaSpark SQL“作业中未指定输入路径”,但可以打印Schema
【发布时间】:2016-01-09 03:05:55
【问题描述】:

我可以读取 Json 和 printSchema,但运行任何操作都会失败(作业中未指定输入路径)。

val sc = new org.apache.spark.SparkContext("local[*]", "shell")
val sqlCtx = new SQLContext(sc)
val input = sqlCtx.jsonFile("../data/tweets/")
input.printSchema


|-- 贡献者ID:数组(可为空=真)
| |-- 元素:字符串 (containsNull = true)
|-- createdAt: string (nullable = true)
...

input.first
java.io.IOException: No input paths specified in job

文件夹结构如下:

  • 推文
    • tweets_1444576960000
      • _成功
      • part-00000
    • tweets_1444577070000
      • _成功
      • part-00000

注意事项:

  • 我使用的是 Spark 和 Spark SQL 1.5.0 版
  • 执行者是local[*] 在同一台机器上
  • 我尝试用绝对路径替换文件路径。同样的错误
  • Json 推文是使用databrick's example app here 获取的

【问题讨论】:

  • 如果你想尝试递归获取目录,似乎有解决方案here

标签: scala apache-spark apache-spark-sql


【解决方案1】:

好的,通过指定路径解决问题

val input = sqlCtx.jsonFile("../data/tweets/tweets_*/*")

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-11-27
    • 2016-06-14
    • 1970-01-01
    • 2013-01-29
    • 2021-02-24
    • 2016-08-14
    • 1970-01-01
    相关资源
    最近更新 更多