【发布时间】:2020-02-02 10:52:09
【问题描述】:
使用 spark 流式传输(每 5 分钟一次)我将数据作为 parquet 存储在 HDFS 中。
/data/yyyy-MM-dd/*.parquet
例如:/data/2020-02-02/*parquet
每个 parquet 文件的大小仅以 KB 为单位
每个文件夹最多可包含 288 个 parquet 文件(最多)。
我们通常读取过去 24 小时、过去 7 天、过去一个月等的数据。
使用 spark 读取数据时,我检查了分区数。假设我正在检查最近一个月的数据,每个文件夹中有 288 个文件,它正在创建 288 个分区。
当我尝试将数据重新分区为 30 时,它会减少到只有 180。
有什么方法可以为一个文件夹创建一个分区。
例如:当我读取过去 30 天的数据时。有什么方法可以读取 30 个分区的数据。如果是7天7分区。
【问题讨论】:
标签: apache-spark spark-streaming partition