Azure 数据工厂数据流 SELECT DISTINCT答案

【问题标题】：Azure data factory dataflow SELECT DISTINCTAzure 数据工厂数据流 SELECT DISTINCT
【发布时间】：2020-10-13 06:49:31
【问题描述】：

我有一个带有几个连接的数据流，在进行连接 #5 时，行数从 10,000 变为 320,000（作为数量增加的示例），但之后我有更多连接要做所以数据流需要更长的时间才能完成。

我所做的是在连接之后添加一个聚合转换，以分组我稍后将使用的字段，以我在数据库查询中使用 SELECT DISTINCT 的方式使用它，但仍然需要很长时间才能完成。

如何让这个数据流运行得更快？

我应该在每次连接之间使用聚合（和按字段分组）以避免重复，还是应该在行开始增加的连接之后添加聚合（和按字段分组...）？

谢谢。

【问题讨论】：

【解决方案1】：

您能否切换到查找而不是加入，然后选择“运行单行”。只需一步即可提供 SELECT DISTINCT 功能。

此外，为了加快端到端处理速度，请尝试提高内存优化并增加核心数量。

【讨论】：