【发布时间】:2017-07-26 10:43:51
【问题描述】:
目前在我的 scala 项目中,我使用 kafka 通过 spark-streaming 接收 xml 数据。我的做法很简单:
KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc,kafkaparams,topics)
val lines = inputstream.map(_._2)
lines.foreachRDD(rdd => {
rdd.foreach(record => {
println(record)}
)}
)
之后我必须将我的字符串转换为 DataFrame。为此,我使用导出到 .xml 并使用 sqlcontext.read.load("pathtofile") 导入,一切正常。
问题:是否可以直接从 kafka-rdd 将单行 xml-string 转换为 DataFrame,我该怎么做?
【问题讨论】:
标签: xml scala apache-spark apache-kafka rdd