【发布时间】:2017-08-09 14:56:00
【问题描述】:
当我尝试将我的 DStream[String] 转换为数据帧时遇到问题。
我的目标是将 twitter 流 [rdd] 转换为数据帧,但使用我的代码(如下),转换不起作用,最后我收到只有一个单词的数据帧。
例如:大家好
我的数据框将只包含单词“hi”
这里是一段代码
val splited_test=texts.transform(rdd => rdd.map(x=> Row.fromSeq(x.split(" "))))
splited_test.foreachRDD { rdd =>{
val fields = new Array[StructField](1)
fields(0)=(DataTypes.createStructField("text", StringType, true))
val schema = DataTypes.createStructType(fields)
val df= sqlContext.createDataFrame(rdd, schema)
}}
【问题讨论】:
标签: scala apache-spark twitter spark-streaming spark-dataframe