【发布时间】:2020-04-14 09:07:47
【问题描述】:
我有多个 Azure 存储 blob 容器,每个容器都有超过 100 万个 JSON 文件,包括根。无法使用(不令人震惊),因此尝试使用数据工厂将它们移动到多个文件夹,使用文件中的时间戳创建 YYYY-MM-DD/HH 文件夹设置作为分区系统。但是我尝试过的每种方法都因超时/项目限制过多而失败。需要打开每个文件,获取时间戳,并使用时间戳数据将文件移动到动态路径。想法?
更新:我能够解决这个问题,但我不会将其称为“答案”,所以我将更新问题。为了创建更小的集合,我将管道参数化为接受文件名通配符。然后,我创建了另一个管道,它使用 0-9、a-z 的数组将其用作数据集的参数。蛮力解决方法...假设必须有更好的解决方案,但目前可行。
【问题讨论】:
标签: azure azure-data-factory-2 azure-blob-storage