【发布时间】:2017-09-09 15:40:24
【问题描述】:
我在 Azure blob 存储中每小时有大约 65000 个小 xml 文件(每个文件大约 1 到 3 kb)。它的遥测数据每小时都会以blob形式出现。我想将它们全部组合并创建大 xml 文件(每小时一个文件左右)并将其转换为大 csv 文件。然后我想将其复制到 azure 数据湖存储中,以便我可以使用 U 进一步分析-SQL 脚本。请告诉我这样做的正确方法是什么。
目前我们正在使用 azure 批处理服务,该服务通过将所有文件名保存在 Azure 表存储中来实现此目的,并且批处理服务中的每个任务将从表存储中读取数据并在完成后对其进行更新。
我认为使用 Web 作业 sdk 和 Azure 服务总线 - 主题和订阅,我们可以做得更好。每小时我们可以考虑一个主题和一个订阅者。
让我知道我的想法是正确的,或者我们可以用一些更好的技术来做到这一点。
【问题讨论】:
标签: azureservicebus azure-data-lake azure-queues azure-blob-storage azure-batch