【发布时间】:2020-02-14 11:56:43
【问题描述】:
我们有快速压缩生成的 ORC 文件。我只是想了解 ORC 文件转储日志,我知道默认情况下,ORC 的条带大小为 64MB。但是,我看到 ORC 文件中的每个条带通常大小约为 5-10MB。我只想知道这些大小是否以压缩格式表示,或者我的默认条带本身小于 64MB?
注意:我在后台使用最新的 EMR 实例,文件在 S3 中。
【问题讨论】:
标签: hadoop amazon-s3 hive amazon-emr orc
我们有快速压缩生成的 ORC 文件。我只是想了解 ORC 文件转储日志,我知道默认情况下,ORC 的条带大小为 64MB。但是,我看到 ORC 文件中的每个条带通常大小约为 5-10MB。我只想知道这些大小是否以压缩格式表示,或者我的默认条带本身小于 64MB?
注意:我在后台使用最新的 EMR 实例,文件在 S3 中。
【问题讨论】:
标签: hadoop amazon-s3 hive amazon-emr orc
条带大小表示缓冲区内存大小,分配用于将行存储更改为列存储,然后写入 HDFS。所以你总是会看到 HDFS 中的条带小于条带的大小(即 64 MB)。
【讨论】: