【问题标题】:Read range of files in pySpark读取 pySpark 中的文件范围
【发布时间】:2016-10-10 12:11:54
【问题描述】:

我需要读取 pySpark 中的连续文件。以下对我有用。

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何读取文件 8-14?

【问题讨论】:

    标签: python apache-spark pyspark pyspark-sql


    【解决方案1】:

    使用花括号。

    file = "events.parquet/exportDay=201509{08,09,10,11,12,13,14}"

    这里有一个关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob。他们建议要么使用花括号,要么执行多次读取,然后合并对象(无论它们是 RDD 还是数据帧或其他什么,都应该有某种方式)。

    【讨论】:

    • 虽然理论上这可以回答这个问题,it would be preferable 在这里包含答案的基本部分,并提供链接以供参考。
    【解决方案2】:

    我相信它使用 shell globbing。

    发帖:How to read multiple text files into a single RDD?

    似乎建议以下应该可以工作。

    “events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]”

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-10-23
      • 1970-01-01
      • 2020-09-25
      • 1970-01-01
      • 2016-06-20
      • 2023-04-07
      相关资源
      最近更新 更多