【问题标题】:S3 and spark . Multiple Hive targets on S3 . Use s3:sse for some and do not use s3:sse for some hive tablesS3 和火花。 S3 上的多个 Hive 目标。对一些使用 s3:sse,对一些配置单元表不要使用 s3:sse
【发布时间】:2017-04-07 21:57:53
【问题描述】:

我想编写一个 spark 应用程序,在其中我从多个 hive 表中读取并写入多个 hive 表。然而,这里有一个怪癖。

所有 hive 表都是外部 hive 表,数据驻留在 S3 上。

一些 s3 存储桶在写入时需要 s3:sse 加密,而一些存储桶则不需要。

据我了解,我只能在全局级别设置属性 fs.s3a.server-side-encryption-algorithm。

我该怎么做。我很确定这是一个常见的用例。

我想我要问的问题如下。

考虑我正在从一个配置单元表读取并写入一个火花应用程序中的配置单元表。 考虑到两个配置单元表都是外部的,数据位于 S3 上。 但是,该表从未加密的存储桶中读取并写入需要加密的存储桶。

【问题讨论】:

    标签: apache-spark amazon-s3


    【解决方案1】:

    Hadoop 2.8.0 允许您添加per-bucket configurations,这将让您完全按照自己的意愿行事;当您升级 Spark 以使用 2.8.0 JAR 时,您可以使用 Spark 中的此功能。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-06-06
      • 2018-06-22
      • 1970-01-01
      • 2021-06-16
      • 1970-01-01
      • 1970-01-01
      • 2015-11-12
      • 2019-09-22
      相关资源
      最近更新 更多