【问题标题】:How to make a generic pipeline for data transformation using Azure Databricks and Data Factory如何使用 Azure Databricks 和数据工厂为数据转换创建通用管道
【发布时间】:2020-12-17 01:16:19
【问题描述】:

我需要创建一个 GUI 来获取一些用户输入,并且他们可以从 GUI 导入一个 CSV 文件。导入文件后,我想使用 Azure databricks(pyspark) 对该文件进行数据转换,并将转换后的数据存储在某处,以便用户可以下载转换后的数据。我想知道如何使它成为一个通用管道,以便组织中的任何人都可以上传他们的文件(它可以有不同的列和数据类型),databricks 进行转换并存储结果。对于所有这些活动,我想利用 Azure 平台。

【问题讨论】:

    标签: azure azure-data-factory azure-web-app-service azure-databricks


    【解决方案1】:

    你的问题很模糊,但这里有一些提示。

    构建您的 UI 以将文件上传到 ADLS Gen2 blob 存储中的文件夹。 Example here. 然后,您的 ASP.NET 应用程序可以使用 Jobs API 启动一个 databricks 笔记本来进行转换。或者,您可以在 Azure 中使用 Event Grid 作为替代方法来检测和处理新文件。 如果 ADF(Azure 数据工厂)中除了 databricks 还需要其他功能,可以kick off an ADF job through an upload。您的 ADF 还可以使用 databricks 活动调用 databricks。

    由于以上所有内容都与您的 Web 应用程序异步,因此您需要通知您的用户文件可用。您可以让您的 UI 根据约定和/或元数据检测新文件,或在数据块作业结束时(或通过事件网格)调用 Sendgrid 以发送通知电子邮件。

    所以,有几个选项。保持简单:)

    【讨论】:

    • 没问题@akash
    猜你喜欢
    • 2021-12-07
    • 2021-12-07
    • 1970-01-01
    • 2019-09-28
    • 2019-08-27
    • 2022-01-06
    • 2020-03-16
    • 2020-06-08
    • 2020-10-29
    相关资源
    最近更新 更多