【发布时间】:2018-01-03 17:57:19
【问题描述】:
我已将 avro 文件读入 spark RDD,需要将其转换为 sql 数据帧。我该怎么做。
这是我到目前为止所做的。
import org.apache.avro.generic.GenericRecord
import org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}
import org.apache.hadoop.io.NullWritable
val path = "hdfs://dds-nameservice/user/ghagh/"
val avroRDD = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](path)
当我这样做时:
avro.take(1)
我回来了
res1: Array[(org.apache.avro.mapred.AvroWrapper[org.apache.avro.generic.GenericRecord], org.apache.hadoop.io.NullWritable)] = Array(({"column1": "value1", "column2": "value2", "column3": value3,...
如何将其转换为 SparkSQL 数据帧?
我使用的是 Spark 1.6
谁能告诉我是否有一个简单的解决方案?
【问题讨论】:
标签: scala apache-spark apache-spark-sql apache-zeppelin