【发布时间】:2017-04-20 10:33:50
【问题描述】:
我正在处理 Data Lake 中大约 4000 个 csv 文件的输入文件集,当作业准备时间超过 25 分钟时,作业失败并出现脚本编译错误
我们需要批量处理超过 4000 个 csv 文件,我听说 Microsoft 有一个预览版解决方案,可以处理大至 30,000 个文件的输入文件集
【问题讨论】:
标签: azure-data-lake u-sql
我正在处理 Data Lake 中大约 4000 个 csv 文件的输入文件集,当作业准备时间超过 25 分钟时,作业失败并出现脚本编译错误
我们需要批量处理超过 4000 个 csv 文件,我听说 Microsoft 有一个预览版解决方案,可以处理大至 30,000 个文件的输入文件集
【问题讨论】:
标签: azure-data-lake u-sql
目前这是opt-in preview feature。请使用此链接中的“联系我们”部分联系 ADLA 支持团队。
输入文件集可以更好地扩展几个数量级(需要选择加入) https://github.com/Azure/AzureDataLake/blob/master/docs/Release_Notes/2017/2017_03_09/USQL_Release_Notes_2017_03_09.md
作为一种替代方法,您可以考虑使用 Azure SQL 数据仓库和 Polybase 来导入和存储平面文件,这会非常快。然后 ADLA 可以使用 federated tables 连接到 Azure SQL 数据仓库。这使您能够“查询数据所在的位置”,并倾向于逻辑数据湖的想法,它使用 Azure SQL 数据仓库和 Azure 数据湖分析 (ADLA) 这两种产品。权衡是更复杂的架构/设置,但 Polybase 已针对快速平面文件导入进行了优化。只是一个想法。
注意我不为微软工作,我只是复制和粘贴链接:)
【讨论】: