【问题标题】:Data Factory Copy Activity Blob -> ADLS数据工厂复制活动 Blob -> ADLS
【发布时间】:2017-10-25 00:51:36
【问题描述】:

我有累积在 Azure 上的 Blob 存储中的文件,这些文件每小时通过数据工厂移动到 ADLS...每小时大约有 1000 个文件,每个文件 10 到 60kb...

什么是最好的组合:

"parallelCopies": ?
"cloudDataMovementUnits": ?

还有,

"concurrency": ?

要使用吗?

目前我将所有这些设置为 10,每小时切片大约需要 5 分钟,这似乎很慢?

ADLS 或 Blob 是否会受到限制,我该如何判断?

【问题讨论】:

    标签: azure-data-factory


    【解决方案1】:

    在优化复制活动时,不会有一种适合所有场景的解决方案。但是,您可以结帐并找到平衡的东西很少。很大程度上取决于定价层/被复制的数据类型/源和接收器的类型。

    我很确定您会看到这篇文章。

    https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-performance

    这是一个参考性能表,根据您的源项目和目标项目的定价层,值肯定会有所不同。

    平行复制:

    • 这发生在文件级别,因此如果您的源文件很大,因为它会将数据分块(来自文章),这将是有益的
    • 在基于文件的存储之间复制数据 1 到 32 之间。取决于文件的大小和用于在两个云数据存储之间复制数据的云数据移动单元 (DMU) 的数量,或自身的物理配置- 托管的集成运行时机器。
    • 默认值为 4。
    • behavior的副本很重要。如果设置为 mergeFile,则不使用并行副本。

    并发:

    • 这只是您可以并行运行多少个相同活动的实例。

    其他注意事项:

    压缩:

    • 编解码器
    • 等级

    最重要的是您可以选择压缩方式,更快的压缩会增加网络流量,更慢会增加消耗的时间。

    地区:

    数据工厂、源和目标的位置或区域可能影响性能,特别是操作成本。根据您的业务需求,将它们放在同一区域可能并不总是可行的,但绝对是您可以探索的。

    特定于 Blob

    https://docs.microsoft.com/en-us/azure/storage/common/storage-performance-checklist#blobs

    本文为您提供了大量指标来提高性能,但是在使用数据工厂时,我认为您在这个级别上无能为力。您可以在复制过程中使用应用程序监控来检查吞吐量。

    【讨论】:

    • 感谢您提供的想法目前我可以在大约 4 分钟内正常运行,只需将 parallelCopies 设置为 10 ......所以我对此很满意 ;)
    猜你喜欢
    • 2022-01-04
    • 1970-01-01
    • 2021-03-18
    • 2020-09-15
    • 2021-06-10
    • 1970-01-01
    • 1970-01-01
    • 2017-07-28
    • 1970-01-01
    相关资源
    最近更新 更多