【问题标题】:Azure datafactory multiple tablesAzure 数据工厂多表
【发布时间】:2020-03-11 21:51:15
【问题描述】:

我有一个业务场景,我们必须从一个数据库中提取所有表,比如说冒险工作,并将所有表信息放在数据湖中单独的 csv 中。假设在冒险工作数据库中,如果我们有 20 个表,我需要并行拉出所有表,并且每个表包含一个 csv,即 20 个表将在 azure 数据湖中包含 20 个 csv。如何使用 Azure 数据工厂。请不要使用 for-each 活动,它会按顺序获取文件且耗时。

【问题讨论】:

  • 顺序是一个布尔变量。当您将其设置为 false 时,您将拥有并行作业
  • 您好蒂亚戈,感谢您的回复,但我没有收到您是否有任何屏幕截图或链接来执行此活动。
  • 如果我的回答对您有帮助,您可以接受它作为答案(单击答案旁边的复选标记,将其从灰色切换为已填充。)。这对其他社区成员可能是有益的。谢谢。

标签: database azure cloud azure-data-lake paas


【解决方案1】:

在数据工厂中,有两种方法可以帮助您在一个管道中从 20 个表创建 20 个 csv 文件:for-each activityData Flow

在 Data Flow 中,添加 20 个 Sources 和 Sink,例如:

无论哪种方式,副本活动都必须是按顺序进行的,并且需要一些时间。

您应该做的是考虑如何提高复制数据性能,就像 Thiago Gustodio 在评论中所说的那样,它可以同时帮助您。

例如,为您的数据库设置更多 DTU,为您的副本使用更多 DIU

请参考这些数据工厂文档:

  1. Mapping data flows performance and tuning guide
  2. Copy activity performance and scalability guide

它们都为您提供性能支持。

希望这会有所帮助。

【讨论】:

    猜你喜欢
    • 2022-11-18
    • 2017-08-21
    • 2015-02-21
    • 2017-10-22
    • 1970-01-01
    • 2023-04-11
    • 2021-08-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多