【发布时间】:2018-05-22 00:11:10
【问题描述】:
我有一个名为“inside”的函数。我想将此功能应用于 pyspark 数据框。为此,我在我创建的数据框上调用“foreachPartition(inside)”方法。 “内部”函数需要数据框的值。
数据框如下所示:
>>> small_df
DataFrame[lon: double, lat: double, t: bigint]
代码如下所示:
def inside(iterator):
row=iterator
x=row.lon
y=row.lat
i=row.t
#do more stuff
small=pliades.iloc[0:20000,:] #take sample of rows from big dataset
small_df=sqlContext.createDataFrame(small) #create dataframe
test=small_df.foreachPartition(inside)
我的问题是:x,y,i 如何分别获取数据帧的第一(lon)、第二(lat)和第三(t)列的值?
我也尝试使用 row.lon、row.select 来处理,将其视为列表但无法获得所需的结果。
【问题讨论】:
标签: python apache-spark dataframe iterator pyspark