【发布时间】:2016-11-27 13:09:55
【问题描述】:
我正在尝试使用 Java 中的 spark 读取 json 文件。我尝试的一些更改是:
SparkConf conf = new SparkConf().setAppName("Search").setMaster("local[*]");
DataFrame df = sqlContext.read().json("../Users/pshah/Desktop/sample.json/*");
代码:
import java.util.Arrays;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
public class ParseData {
public static void main(String args[]){
SparkConf conf = new SparkConf().setAppName("Search").setMaster("local");
JavaSparkContext sc= new JavaSparkContext(conf);
SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc);
// Create the DataFrame
DataFrame df = sqlContext.read().json("/Users/pshah/Desktop/sample.json");
// Show the content of the DataFrame
df.show();
}}
错误:
Exception in thread "main" java.io.IOException: No input paths specified in job
at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:198)
【问题讨论】:
-
我无法复制您的问题。能否请您提供带有 JSON 文件的 pastebin?
-
你确定路径存在吗?看来您指向错误的路径
-
是的。路径存在。我刚刚尝试再次构建 maven 项目,现在运行良好。感谢您的回复!
-
问题是代码对于非常简单的 JSON 文件运行良好。但是当我使用嵌套的 json 数据时。我收到以下错误:java.lang.RuntimeException:无法解析数据类型 StructType() 的值(当前令牌:VALUE_STRING
标签: java apache-spark