【问题标题】:Is it possible to point to multiple Hadoop clusters at a time from Greenplum using GPHDFS?是否可以使用 GPHDFS 从 Greenplum 一次指向多个 Hadoop 集群?
【发布时间】:2019-05-02 12:26:47
【问题描述】:

我们有一个 Greenplum 环境,目前我们已配置 gphdfs 以启用 Greenplum 在 HDFS 上的数据写入。需要为不同的用户写入不同的 HDFS。是否可以为不同的用户配置不同的gphdfs配置,从而根据用户的不同,将数据写入其对应配置的HDFS?

预期结果: 从用户 1 开始,当我创建 WRITABLE EXTERNAL 表时, Location 属性看起来像, 位置('gphdfs://hdfs_1_for_user1:8020/path/')

从用户 2 开始,当我创建 WRITABLE EXTERNAL 表时,Location 属性看起来像, 位置('gphdfs://hdfs_2_for_user2:8020/path/')

【问题讨论】:

    标签: hdfs greenplum


    【解决方案1】:

    如果您使用的是 Greenplum 5+ 版本,则可以使用 PXF 访问 Hadoop 集群。在 PXF 中,您可以创建不同的服务器配置,以便每个用户可以访问不同的 HDFS 集群。

    例如:

    CREATE EXTERNAL TABLE my_table_on_hdfs_cluster_1 (...) 
    LOCATION('pxf://my/path/on/hdfs/cluster/1?PROFILE=hdfs:text&SERVER=hdfs1')
    FORMAT 'TEXT';
    

    对于第二个集群:

    CREATE EXTERNAL TABLE my_table_on_hdfs_cluster_2 (...) 
    LOCATION('pxf://my/path/on/hdfs/cluster/2?PROFILE=hdfs:text&SERVER=hdfs2')
    FORMAT 'TEXT';
    

    但是,您需要不同的外部表来访问每个 HDFS 集群。

    您可以在此处找到有关 PXF 的更多信息:https://gpdb.docs.pivotal.io/5180/pxf/access_hdfs.html

    【讨论】:

    • 另外,我忘了提到 gphdfs 在 Greenplum 6 中已被弃用。
    • 谢谢弗兰克,PXF 会很有帮助的。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-08-10
    • 1970-01-01
    相关资源
    最近更新 更多