【发布时间】:2020-03-27 19:14:47
【问题描述】:
我寻找了类似的例子,但它们都在路径中有一个特定的字符串,最后是数字,因此能够迭代地执行 for 循环。
我的情况如下:
我在多个分区中有多个镶木地板文件,路径如下:
s3a://path/idate=2019-09-16/part-{some random hex key1}.snappy.parquet
s3a://path/idate=2019-09-16/part-{some random hex key2}.snappy.parquet
etc...。
{some random hex key} 显然是不可预测的,因此我无法在迭代代码定义中创建规则。
我想要一个 for 循环,例如:
files="s3a://path/idate=2019-09-16/"
for i in files
block{i}=spark.read.parquet(i)
其中block{i} 是block1、block2 等,是从s3a://path/idate=2019-09-16/part-{some random hex **key1,2, etc**..}.snappy.parquet 创建的迭代数据帧
这可能吗?
【问题讨论】:
标签: pyspark-sql parquet pyspark-dataframes