【发布时间】:2017-01-15 18:16:48
【问题描述】:
我有一个 Spark 的 Dataframe parquet 文件,可以被 spark 读取,如下所示
df = sqlContext.read.parquet('path_to/example.parquet')
df.registerTempTable('temp_table')
我想按行对我的数据帧df 进行切片(即相当于 Pandas 数据帧中的 df.iloc[0:4000], df.iloc[4000:8000] 等),因为我想将每个小块转换为 pandas 数据帧以供以后处理。我只知道如何使用sample 随机分数,即
df_sample = df.sample(False, fraction=0.1) # sample 10 % of my data
df_pandas = df_sample.toPandas()
如果有一种方法可以按行分割我的数据框df,那我会很棒。提前致谢。
【问题讨论】:
标签: sql pyspark pyspark-sql