Spark SQL“作业中未指定输入路径”，但可以打印Schema答案

【问题标题】：Spark SQL "No input paths specified in job", but can printSchemaSpark SQL“作业中未指定输入路径”，但可以打印Schema
【发布时间】：2016-01-09 03:05:55
【问题描述】：

我可以读取 Json 和 printSchema，但运行任何操作都会失败（作业中未指定输入路径）。

val sc = new org.apache.spark.SparkContext("local[*]", "shell")
val sqlCtx = new SQLContext(sc)
val input = sqlCtx.jsonFile("../data/tweets/")
input.printSchema

根
|-- 贡献者ID：数组（可为空=真）
| |-- 元素：字符串 (containsNull = true)
|-- createdAt: string (nullable = true)
...

input.first
java.io.IOException: No input paths specified in job

文件夹结构如下：

推文
- tweets_1444576960000
  - _成功
  - part-00000
- tweets_1444577070000
  - _成功
  - part-00000

注意事项：

我使用的是 Spark 和 Spark SQL 1.5.0 版
执行者是local[*] 在同一台机器上
我尝试用绝对路径替换文件路径。同样的错误
Json 推文是使用databrick's example app here 获取的

【问题讨论】：

如果你想尝试递归获取目录，似乎有解决方案here。

标签： scala apache-spark apache-spark-sql

【解决方案1】：

好的，通过指定路径解决问题

val input = sqlCtx.jsonFile("../data/tweets/tweets_*/*")

【讨论】：