【发布时间】:2018-06-10 00:50:21
【问题描述】:
我正在尝试将以下流水线 RDD 转换为数据帧。
流水线 RDD -> user_rdd
['new_user1',
'new_user2',
'Onlyknows',
'Icetea',
'_coldcoffee_']
我尝试使用以下代码进行转换
schema = StructType([StructField('Username', StringType(), True)])
user_df = sqlContext.createDataFrame(user_rdd,schema)
mention_df.show(20)
我收到以下错误:
ValueError: Unexpected tuple 'new_user1' with StructType
我也尝试使用 toDF():
user_df=user_rdd.toDF()
这次遇到的错误是:
TypeError: Can not infer schema for type: <type 'str'>
如果有办法使用 pyspark 将其转换为数据框,请告诉我。
【问题讨论】:
标签: python apache-spark dataframe pyspark rdd