【发布时间】:2026-01-18 06:40:01
【问题描述】:
我有 5 个表存储为 CSV 文件(A.csv、B.csv、C.csv、D.csv、E.csv)。每个文件都按日期分区。如果我的文件夹结构为:
A/ds=2017-07-01/A.csv
A/ds=2017-07-02/A.csv
...
E/ds=2017-07-02/E.csv
然后使用以下命令将自动识别 Spark 2.x 中表 A 的分区
data_facts = spark.read\
.option('inferSchema', 'true')\
.option('header', 'true')\
.csv('/FileStore/A/')
我的问题是,如果我的文件夹结构是这样的,我是否还能保持相同的功能:
Data/ds=2017-07-01/A.csv
Data/ds=2017-07-01/B.csv
Data/ds=2017-07-01/C.csv
Data/ds=2017-07-01/D.csv
Data/ds=2017-07-01/E.csv
Data/ds=2017-07-02/A.csv
Data/ds=2017-07-02/B.csv
Data/ds=2017-07-02/C.csv
Data/ds=2017-07-02/D.csv
Data/ds=2017-07-02/E.csv
在这种情况下,有没有办法跨分区读取表 A?还是我最好将数据移动到每个表的单个文件夹中?
【问题讨论】:
标签: apache-spark pyspark