【问题标题】:data lake job fails when job preparation time exceeds 25 mins当作业准备时间超过 25 分钟时,数据湖作业失败
【发布时间】:2017-04-20 10:33:50
【问题描述】:

我正在处理 Data Lake 中大约 4000 个 csv 文件的输入文件集,当作业准备时间超过 25 分钟时,作业失败并出现脚本编译错误

我们需要批量处理超过 4000 个 csv 文件,我听说 Microsoft 有一个预览版解决方案,可以处理大至 30,000 个文件的输入文件集

【问题讨论】:

    标签: azure-data-lake u-sql


    【解决方案1】:

    目前这是opt-in preview feature。请使用此链接中的“联系我们”部分联系 ADLA 支持团队。

    输入文件集可以更好地扩展几个数量级(需要选择加入) https://github.com/Azure/AzureDataLake/blob/master/docs/Release_Notes/2017/2017_03_09/USQL_Release_Notes_2017_03_09.md

    作为一种替代方法,您可以考虑使用 Azure SQL 数据仓库和 Polybase 来导入和存储平面文件,这会非常快。然后 ADLA 可以使用 federated tables 连接到 Azure SQL 数据仓库。这使您能够“查询数据所在的位置”,并倾向于逻辑数据湖的想法,它使用 Azure SQL 数据仓库和 Azure 数据湖分析 (ADLA) 这两种产品。权衡是更复杂的架构/设置,但 Polybase 已针对快速平面文件导入进行了优化。只是一个想法。

    注意我不为微软工作,我只是复制和粘贴链接:)

    【讨论】:

      猜你喜欢
      • 2018-11-17
      • 2016-04-07
      • 1970-01-01
      • 2022-05-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-10-29
      • 1970-01-01
      相关资源
      最近更新 更多