使用 spark 和 azure 进行批处理答案

【问题标题】：Batch processing with spark and azure使用 spark 和 azure 进行批处理
【发布时间】：2018-05-03 08:27:55
【问题描述】：

我在一家能源供应商公司工作。目前，我们每天以平面文件的形式生成 1 GB 数据。我们决定使用 azure 数据湖存储来存储我们的数据，我们希望每天在其中进行批处理。我的问题是将平面文件传输到天蓝色数据湖存储的最佳方法是什么？在数据被推送到天蓝色之后，我想知道用 HDInsight spark 处理数据是否是个好主意？像 Dataframe API 或 SparkSQL，最后用 azure 将其可视化？

【问题讨论】：

你的意思是 Azure Data Lake？
使用 AzCopy 进行 blob 存储，然后使用代码转换为 Data Lake，如果 Data Lake 不直接提供某些内容，则可以选择
您的源数据存储在哪里？数据库？平面文件？
是的，它目前是平面文件。实际上，有一个ETL过程，从数据库中收集数据，转换它们，最后生成平面文件，然后放到本地文件系统中
Use the Azure Import/Export service for offline copy of data to Data Lake Store.

标签： azure apache-spark bigdata

【解决方案1】：

对于本地文件系统的日常负载，我建议使用 Azure 数据工厂版本 2。您必须在本地安装集成运行时（多个以实现高可用性）。您必须考虑几个安全主题（本地防火墙、网络连接等）。可以在here 找到详细文档。还有一些不错的Tutorials 可用。使用 Azure 数据工厂，您可以使用 Get-Metadata-Activity 触发上传到 Azure 并使用 e。 G。用于进一步 Spark 处理的 Azure Databricks Notebook Activity。

【讨论】：