【发布时间】:2017-10-01 18:38:45
【问题描述】:
我正在尝试使用 spark 读取 hive 生成的序列文件。当我尝试访问该文件时,我面临 org.apache.spark.SparkException: Job aborted due to stage failure: Task not serializable: java.io.NotSerializableException:
我已经尝试过解决这个问题的方法,比如使类可序列化,但我仍然面临这个问题。我在这里写代码sn-p,请让我知道我在这里缺少什么。
是因为 BytesWritable 数据类型还是其他导致问题的原因。
JavaPairRDD<BytesWritable, Text> fileRDD = javaCtx.sequenceFile("hdfs://path_to_the_file", BytesWritable.class, Text.class);
List<String> result = fileRDD.map(new Function<Tuple2<BytesWritables,Text>,String>(){
public String call (Tuple2<BytesWritable,Text> row){
return row._2.toString()+"\n";
}).collect();
}
【问题讨论】:
-
请发布错误的堆栈跟踪,如果您能发布整个代码将会很有帮助。
标签: hadoop apache-spark sequencefile bigdata