【问题标题】:Pivotal HDB - How to push data from HAWQ Internal /external readable table TO GreenplumPivotal HDB - 如何将数据从 HAWQ 内部/外部可读表推送到 Greenplum
【发布时间】:2016-09-18 13:57:45
【问题描述】:

我们有小型 hadoop 和 Greenplum 集群。
目前的数据管道流程是:

External table >> hadoop-hawq external readbale table >>hawq internal table.

输出: 1.我们正在尝试使用GREENPLUM扩展数据管道。基本上想将HAWQ内部表或外部可读表数据直接推入greenplum。 原因是因为我们想编辑我们的文件。另外,HAWQ 不支持更新和删除。是否有任何替代方法来处理或推送数据。请指导。

2.如何通过gphdfs协议通过GPDB外表访问HDFS数据

提前致谢!

【问题讨论】:

    标签: hadoop greenplum hawq


    【解决方案1】:

    如果您想将HAWQ内表中的数据推送到Greenplum数据库,您可以:

    1) 使用可写外部表将 HAWQ 内部表中的数据卸载到 HDFS 上的文件。下面是一个卸载示例:http://gpdb.docs.pivotal.io/4380/admin_guide/load/topics/g-unloading-data-using-a-writable-external-table.html

    2) 然后使用可读的外部表将HDFS文件中的数据加载到Greenplum数据库中,协议如gphdfs、gpfdist等,具体可以参考http://gpdb.docs.pivotal.io/4320/admin_guide/load.html

    如果要将HAWQ中可读外部表中的数据推送到Greenplum数据库中,可以像HAWQ中一样直接使用Greenplum数据库中可读外部表。

    对于 gphdfs,以下是一些有用的示例: http://gpdb.docs.pivotal.io/4380/admin_guide/load/topics/g-example-1-greenplum-file-server-gpfdist.html

    【讨论】: