【发布时间】:2020-10-13 06:49:31
【问题描述】:
我有一个带有几个连接的数据流,在进行连接 #5 时,行数从 10,000 变为 320,000(作为数量增加的示例),但之后我有更多连接要做所以数据流需要更长的时间才能完成。
我所做的是在连接之后添加一个聚合转换,以分组我稍后将使用的字段,以我在数据库查询中使用 SELECT DISTINCT 的方式使用它,但仍然需要很长时间才能完成。
如何让这个数据流运行得更快?
我应该在每次连接之间使用聚合(和按字段分组)以避免重复,还是应该在行开始增加的连接之后添加聚合(和按字段分组...)?
谢谢。
【问题讨论】:
标签: aggregate-functions azure-data-factory azure-data-flow