【发布时间】:2020-05-17 04:35:48
【问题描述】:
我有一个月的数据存储在 HDFS 中。 31 个文件夹,每个文件夹按日期表示,格式为 yyyy-mm-dd。例如:2020-01-30
我们将每 5 分钟获取一次数据,并使用 spark append mode 将数据保存为 parquet 文件。所以一小时有 12 个文件,一天有 288 个文件。所以每个文件夹包含大约 288 个 parquet 文件。因此,对于 1 月份,大约是 8928(31*288) parquet 文件。
我将使用 spark 读取数据。
读取这么多文件会导致性能问题吗?
如果我每天维护一个文件。假设每天只包含一个 parquet 文件,而在一月份,31 parquet 文件。
如果我这样做会提高性能吗?
【问题讨论】:
标签: apache-spark parquet