【问题标题】:Batch processing with spark and azure使用 spark 和 azure 进行批处理
【发布时间】:2018-05-03 08:27:55
【问题描述】:

我在一家能源供应商公司工作。目前,我们每天以平面文件的形式生成 1 GB 数据。我们决定使用 azure 数据湖存储来存储我们的数据,我们希望每天在其中进行批处理。我的问题是将平面文件传输到天蓝色数据湖存储的最佳方法是什么?在数据被推送到天蓝色之后,我想知道用 HDInsight spark 处理数据是否是个好主意?像 Dataframe API 或 SparkSQL,最后用 azure 将其可视化?

【问题讨论】:

  • 你的意思是 Azure Data Lake?
  • 使用 AzCopy 进行 blob 存储,然后使用代码转换为 Data Lake,如果 Data Lake 不直接提供某些内容,则可以选择
  • 您的源数据存储在哪里?数据库?平面文件?
  • 是的,它目前是平面文件。实际上,有一个ETL过程,从数据库中收集数据,转换它们,最后生成平面文件,然后放到本地文件系统中

标签: azure apache-spark bigdata


【解决方案1】:

对于本地文件系统的日常负载,我建议使用 Azure 数据工厂版本 2。您必须在本地安装集成运行时(多个以实现高可用性)。您必须考虑几个安全主题(本地防火墙、网络连接等)。可以在here 找到详细文档。还有一些不错的Tutorials 可用。使用 Azure 数据工厂,您可以使用 Get-Metadata-Activity 触发上传到 Azure 并使用 e。 G。用于进一步 Spark 处理的 Azure Databricks Notebook Activity。

【讨论】:

    猜你喜欢
    • 2015-09-05
    • 2016-12-29
    • 2016-12-27
    • 1970-01-01
    • 2012-12-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多