文件系统 SDK 与 Azure 数据工厂答案

【问题标题】：Filesystem SDK vs Azure Data Factory文件系统 SDK 与 Azure 数据工厂
【发布时间】：2020-12-03 18:54:03
【问题描述】：

我对 Azure 数据湖存储非常陌生，目前正在接受数据工厂培训。我有开发人员背景，所以我不喜欢“工具”开发方法。我真的不喜欢如何设置所有这些设置以及您必须在任何地方创建的对象。我更喜欢一种代码方法，它允许我们从服务中分离逻辑（不喜欢保存发布的东西），通过滚动或导航到项目中的不同对象来查看所有内容，在源代码管理中更容易查看差异等等。所以我发现这个 Micrososft 的 Filesystem SDK 似乎可以替代数据工厂： https://azure.microsoft.com/en-us/blog/filesystem-sdks-for-azure-data-lake-storage-gen2-now-generally-available/

您使用这种方法有什么经验？这是一个很好的选择吗？有没有办法在数据工厂中运行 SDK 代码？这样我们就可以利用调度和触发器？我想我正在寻找优点/缺点。

谢谢

【问题讨论】：

标签： azure azure-data-factory azure-data-lake

【解决方案1】：

嗯，docs 指的是几个 SDK，其中一个是 the .Net SDK，标题是

使用 .NET（或 Python 或 Java 等）在 Azure Data Lake Storage Gen2 中管理目录、文件和 ACL

因此，SDK 只允许您管理文件系统。不支持触发器、管道、数据流等。为此，您必须坚持使用 Azure 数据工厂。

关于这个：

我不喜欢“工具”开发方法

我不想告诉你，但不管你喜不喜欢，世界都在朝着那个方向发展。以逻辑应用为例。 Azure 数据工厂并非针对核心开发人员，而是满足像数据工程师这样处理大量数据的人员的需求。我已经很高兴它与 git 很好地集成了。是的，定义接收器和源有一些开销，但它们可以跨管道重用。

如果你真的想使用代码试试Azure Databricks。也可以看看this Q&A。

TL;DR： FileSystem SDK 不是替代品。

【讨论】：

【解决方案2】：

用于构建和管理 Azure 数据湖的以代码为中心的 Azure 数据工厂替代方案是 Spark。通常是Azure Databricks 或Azure Synapse Spark。

【讨论】：