【发布时间】:2016-01-09 03:05:55
【问题描述】:
我可以读取 Json 和 printSchema,但运行任何操作都会失败(作业中未指定输入路径)。
val sc = new org.apache.spark.SparkContext("local[*]", "shell")
val sqlCtx = new SQLContext(sc)
val input = sqlCtx.jsonFile("../data/tweets/")
input.printSchema
根
|-- 贡献者ID:数组(可为空=真)
| |-- 元素:字符串 (containsNull = true)
|-- createdAt: string (nullable = true)
...
input.first
java.io.IOException: No input paths specified in job
文件夹结构如下:
- 推文
- tweets_1444576960000
- _成功
- part-00000
- tweets_1444577070000
- _成功
- part-00000
- tweets_1444576960000
注意事项:
- 我使用的是 Spark 和 Spark SQL 1.5.0 版
- 执行者是
local[*]在同一台机器上 - 我尝试用绝对路径替换文件路径。同样的错误
- Json 推文是使用databrick's example app here 获取的
【问题讨论】:
-
如果你想尝试递归获取目录,似乎有解决方案here。
标签: scala apache-spark apache-spark-sql