【发布时间】:2020-04-01 08:45:08
【问题描述】:
我想检索查询结果中的分区名称。
所以如果我有这样的分区:
dataset/foo/
├─ key=value1
├─ key=value2
└─ key=value3
我可以做这个查询
results = session.read.parquet('dataset/foo/key=value[12]') \
.select(['BAR']) \
.where('BAZ < 10')
一旦我这样做了,如何知道每个结果的分区来源?
确实,我只能从BAR 列中获取值。
感谢您的帮助
【问题讨论】:
标签: pyspark pyspark-sql parquet