【问题标题】:Azure Data Factory V1- How to handle multiple Scripts in one pipeline activityAzure 数据工厂 V1 - 如何在一个管道活动中处理多个脚本
【发布时间】:2018-12-06 07:15:42
【问题描述】:

目前我正在尝试在 Microsoft Azure 上读取和取消透视列名未知的 csv 文件。因此,我正在使用具有两个数据湖分析活动的数据工厂:第一个活动生成一个脚本来读取和取消透视数据,第二个活动只是执行此脚本。 我的问题是,有时第一个活动生成的脚本太大了

"提供的U-SQL脚本长度为6449969字节,超过 尺寸 限制为 2097152 字节。”

我的想法是拆分它们,但我认为不可能在 1 个活动中运行超过 1 个脚本。由于我不知道脚本将分为多少方,所以我不能只添加固定数量的活动。

有什么建议吗?

【问题讨论】:

    标签: azure azure-data-factory azure-data-lake u-sql


    【解决方案1】:

    此时解决此限制的唯一方法是编写自定义提取器。但是,您必须将数据公开,而不是作为字符串,而是作为 byte[]。

    如果您使用仅读取字节数组的自定义提取器,则最多可以达到 4MB。

    一般来说,如果你需要解析你的行,它可能会更快,如果你编写自定义提取器而不是使用内置提取器,然后编写另一个或两个 U-SQL 转换来解析数据(再次)。

    您可以参考这个 repo 以获得一些见解 - https://github.com/Azure/usql/tree/mrys-json

    【讨论】:

    猜你喜欢
    • 2020-09-06
    • 2021-09-27
    • 1970-01-01
    • 2021-12-25
    • 1970-01-01
    • 2019-12-07
    • 1970-01-01
    • 2018-10-23
    • 2020-10-29
    相关资源
    最近更新 更多