【问题标题】:Does stripe size in the ORC File dump represented in Compressed size Format?ORC 文件转储中的条带大小是否以压缩大小格式表示?
【发布时间】:2020-02-14 11:56:43
【问题描述】:

我们有快速压缩生成的 ORC 文件。我只是想了解 ORC 文件转储日志,我知道默认情况下,ORC 的条带大小为 64MB。但是,我看到 ORC 文件中的每个条带通常大小约为 5-10MB。我只想知道这些大小是否以压缩格式表示,或者我的默认条带本身小于 64MB?

注意:我在后台使用最新的 EMR 实例,文件在 S3 中。

【问题讨论】:

    标签: hadoop amazon-s3 hive amazon-emr orc


    【解决方案1】:

    条带大小表示缓冲区内存大小,分配用于将行存储更改为列存储,然后写入 HDFS。所以你总是会看到 HDFS 中的条带小于条带的大小(即 64 MB)。

    【讨论】:

    • 发表评论
    • 感谢您的回复!但是,它并没有完全回答我的问题。为什么会有很大的不同?你认为在 ORC 文件转储中表示的条带大小实际上是压缩大小格式吗?
    猜你喜欢
    • 2013-09-11
    • 1970-01-01
    • 2021-09-26
    • 1970-01-01
    • 2020-02-19
    • 2019-08-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多