用于结构化数据的 Azure 数据湖答案

【问题标题】：Azure Data Lake for Structured Data用于结构化数据的 Azure 数据湖
【发布时间】：2020-02-05 16:44:17
【问题描述】：

我们一直在审查 Microsoft (link here) 的现代数据仓库架构，其中提到使用 Azure 数据工厂将结构化和非结构化数据拉入 Azure 数据湖。我也参加了很多关于这个主题的演讲，但大多数人对于数据湖是否是结构化数据的好地方存在分歧。我要确定的是，如果我们将使用的唯一来源是本地 SQL Server 数据库，那么将数据导入数据湖是否是一个好策略？而且，该策略的优点/缺点是什么？

出于上下文考虑，我们正在寻找一个单一的消费平台 - 无论是最终用户使用 Power BI 进行的报告，还是 Azure 数据仓库/本地数据仓库的素材。我们想要一个容器作为所有这些系统的源，而不是源 OLTP 系统（即 OLTP 数据库 --> (Azure 数据工厂) --> Data Lake --> 其他所有系统）。

感谢任何有关该主题的指导。谢谢你。

【问题讨论】：

标签： azure azure-data-lake

【解决方案1】：

你没有提到数据大小，我认为对于移动到 ADL，数据是一个非常强大的参数。在您的情况下，数据非常结构化。如果您拥有非结构化和海量数据，并且您想使用 ADB 或 Hadoop 或任何其他技术稍后处理它，我认为 ADL 是一个不错的选择。

您还应该考虑使用 SSL 动态加密数据。您可以使用基于 POSIX 的细粒度 ACL 授权用户和组，以访问 Store 中的所有数据，从而启用基于角色的访问控制。

【讨论】：

感谢您的回复。来自 7 个数据库的数据大小约为 7 TB。我们今天不使用 Hadoop，但我不会将其排除在未来的用例之外。关于您提到的 cmets，我们可以使用本地来源的 Hadoop，并且我们对现有系统进行了细粒度的控制。您还能想到其他好处吗？
谢谢。没有什么是我现在经常看到的，任何新的连接器/ETL/报告工具都具有可以从云中插入数据的功能，这使得开发新应用程序和扩展现有应用程序变得容易。

【解决方案2】：

获取结构化数据、将其展平并将其加载到数据湖中的唯一真正价值是节省成本并将数据与任何专有工具/计算分离。在您的方案中，与 Azure SQL 数据库相比，将数据存储在数据湖存储中的成本会更低。

但是，扁平化数据会产生复杂性成本。当您需要使用数据时，您将需要重组数据（即，将其加载回数据库，或包装逻辑结构）。 Parquet 等格式将对此有所帮助，但用户在数据湖中查询数据比连接到关系数据库更复杂。大多数分析师和数据消费者都知道如何查询关系数据库，尤其是当数据已经在 SQL Server 中时。

查看数据量和消费用例以做出决定。 “逻辑数据湖”可以包括关系数据库中的结构化数据、存储帐户中扁平化的半结构化数据以及保存到存储帐户中的非结构化数据。

【讨论】：