当作业准备时间超过 25 分钟时，数据湖作业失败答案

【问题标题】：data lake job fails when job preparation time exceeds 25 mins当作业准备时间超过 25 分钟时，数据湖作业失败
【发布时间】：2017-04-20 10:33:50
【问题描述】：

我正在处理 Data Lake 中大约 4000 个 csv 文件的输入文件集，当作业准备时间超过 25 分钟时，作业失败并出现脚本编译错误

我们需要批量处理超过 4000 个 csv 文件，我听说 Microsoft 有一个预览版解决方案，可以处理大至 30,000 个文件的输入文件集

【问题讨论】：

标签： azure-data-lake u-sql

【解决方案1】：

目前这是opt-in preview feature。请使用此链接中的“联系我们”部分联系 ADLA 支持团队。

输入文件集可以更好地扩展几个数量级（需要选择加入） https://github.com/Azure/AzureDataLake/blob/master/docs/Release_Notes/2017/2017_03_09/USQL_Release_Notes_2017_03_09.md

作为一种替代方法，您可以考虑使用 Azure SQL 数据仓库和 Polybase 来导入和存储平面文件，这会非常快。然后 ADLA 可以使用 federated tables 连接到 Azure SQL 数据仓库。这使您能够“查询数据所在的位置”，并倾向于逻辑数据湖的想法，它使用 Azure SQL 数据仓库和 Azure 数据湖分析 (ADLA) 这两种产品。权衡是更复杂的架构/设置，但 Polybase 已针对快速平面文件导入进行了优化。只是一个想法。

注意我不为微软工作，我只是复制和粘贴链接：)

【讨论】：