读取 pySpark 中的文件范围

【问题标题】：Read range of files in pySpark读取 pySpark 中的文件范围
【发布时间】：2016-10-10 12:11:54
【问题描述】：

我需要读取 pySpark 中的连续文件。以下对我有用。

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何读取文件 8-14？

【问题讨论】：

【解决方案1】：

使用花括号。

file = "events.parquet/exportDay=201509{08,09,10,11,12,13,14}"

这里有一个关于堆栈溢出的类似问题：Pyspark select subset of files using regex glob。他们建议要么使用花括号，要么执行多次读取，然后合并对象（无论它们是 RDD 还是数据帧或其他什么，都应该有某种方式）。

【讨论】：

【解决方案2】：

我相信它使用 shell globbing。

似乎建议以下应该可以工作。

“events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]”

【讨论】：