【发布时间】:2020-04-20 10:16:53
【问题描述】:
我正在努力优化我的数据工厂管道,以尽量减少为数据流启动计算所花费的时间。
我的理解是,如果我们设置一个 TTL 为 15 分钟的运行时,那么在此之后按顺序执行的所有后续流应该会经历非常短的计算获取时间,但是当从一个到另一个的管道 - 在下图中,流 3 是否会利用运行时已经在流 1 中启动?我问是因为我看到非常零星的行为。
【问题讨论】:
我正在努力优化我的数据工厂管道,以尽量减少为数据流启动计算所花费的时间。
我的理解是,如果我们设置一个 TTL 为 15 分钟的运行时,那么在此之后按顺序执行的所有后续流应该会经历非常短的计算获取时间,但是当从一个到另一个的管道 - 在下图中,流 3 是否会利用运行时已经在流 1 中启动?我问是因为我看到非常零星的行为。
【问题讨论】:
如果您在同一工厂内使用相同的 Azure IR,可以。但是,活动必须按顺序执行,否则 ADF 将为您启动另一个池。这是因为作业集群不支持 Databricks 并行作业执行。我在this video 和this document 中描述了这些技术。
【讨论】: