【问题标题】:Azure data factory dataflow SELECT DISTINCTAzure 数据工厂数据流 SELECT DISTINCT
【发布时间】:2020-10-13 06:49:31
【问题描述】:

我有一个带有几个连接的数据流,在进行连接 #5 时,行数从 10,000 变为 320,000(作为数量增加的示例),但之后我有更多连接要做所以数据流需要更长的时间才能完成。

我所做的是在连接之后添加一个聚合转换,以分组我稍后将使用的字段,以我在数据库查询中使用 SELECT DISTINCT 的方式使用它,但仍然需要很长时间才能完成。

如何让这个数据流运行得更快?

我应该在每次连接之间使用聚合(和按字段分组)以避免重复,还是应该在行开始增加的连接之后添加聚合(和按字段分组...)?

谢谢。

【问题讨论】:

    标签: aggregate-functions azure-data-factory azure-data-flow


    【解决方案1】:

    您能否切换到查找而不是加入,然后选择“运行单行”。只需一步即可提供 SELECT DISTINCT 功能。

    此外,为了加快端到端处理速度,请尝试提高内存优化并增加核心数量。

    【讨论】:

    • 忘了说源数据是数据湖中的平面文件,使用 Lookups 可以吗?关于速度,我就是这样做的。
    • 是的,查找转换而不是连接将起作用
    • 我应该选择“匹配任何行”,对吗?并选择任何?
    • 任意行、第一行或最后一行,任君选择
    猜你喜欢
    • 1970-01-01
    • 2020-11-26
    • 2020-11-30
    • 2020-04-14
    • 2020-04-28
    • 2021-02-17
    • 2021-09-12
    • 1970-01-01
    • 2023-03-06
    相关资源
    最近更新 更多