【发布时间】:2017-05-09 05:33:24
【问题描述】:
我正在尝试处理日志文件。首先,我读取日志文件并根据我的要求拆分这些文件,并将每一列保存到单独的 JavaRDD 中。现在我需要将这些 JavaRDD 转换为 DataFrames 以供将来操作。这是我到目前为止尝试的代码:
SparkConf conf = new SparkConf().setAppName("AuctionBid").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> diskfile = sc.textFile("/Users/karuturi/Downloads/log.txt");
JavaRDD<String> urlrdd=diskfile.flatMap(line -> Arrays.asList(line.split("\t")[0]));
System.out.println(urlrdd.take(1));
SQLContext sql = new SQLContext(sc);
这就是我尝试将 JavaRDD 转换为 DataFrame 的方式:
DataFrame fileDF = sqlContext.createDataFrame(urlRDD, Model.class);
但上面的行不起作用。我对 Model.class 感到困惑。
谁能推荐我。
谢谢。
【问题讨论】:
标签: java apache-spark hadoop apache-spark-sql