【问题标题】:Parallel loading of Files/URIs to external table in greenplum将文件/URI并行加载到greenplum中的外部表
【发布时间】:2018-06-05 12:03:37
【问题描述】:

如果我在greenplum数据库的CREATE EXTERNAL TABLE中为LOCATION指定多个URI,它会并行加载文件吗?还是加载整个文件与将文件拆分为多个文件并加载它们没有区别?
Official Doc

【问题讨论】:

    标签: greenplum external-tables


    【解决方案1】:

    文件按命令按顺序加载。 如果指定多个文件,例如:gpfdist://data/file_*

    然后所有这些文件将按顺序加载,同时由所有段加载。

    您可以通过将文件拆分到多个 gpfdist 实例来实现更快的并发加载。

    例如: gpfdist://data/file_part_1* gpfdist://data/file_part_2*

    有关视频示例,请参阅: https://youtu.be/QqzUhTgWPZg?t=4m48s

    【讨论】:

    • 这是否意味着如果我在 4 个不同的文件夹上运行 gpfdist 服务并将我的文件分发到这 4 个文件夹,这些文件将并行加载?
    • 是的,就是这个意思。
    【解决方案2】:

    多个 gpfdist 实例将以并行方式在定义的位置加载/卸载数据。那才是greenplum db的真正用处

    【讨论】: