【发布时间】:2018-05-03 08:27:55
【问题描述】:
我在一家能源供应商公司工作。目前,我们每天以平面文件的形式生成 1 GB 数据。我们决定使用 azure 数据湖存储来存储我们的数据,我们希望每天在其中进行批处理。我的问题是将平面文件传输到天蓝色数据湖存储的最佳方法是什么?在数据被推送到天蓝色之后,我想知道用 HDInsight spark 处理数据是否是个好主意?像 Dataframe API 或 SparkSQL,最后用 azure 将其可视化?
【问题讨论】:
-
你的意思是 Azure Data Lake?
-
使用
AzCopy进行 blob 存储,然后使用代码转换为 Data Lake,如果 Data Lake 不直接提供某些内容,则可以选择 -
您的源数据存储在哪里?数据库?平面文件?
-
是的,它目前是平面文件。实际上,有一个ETL过程,从数据库中收集数据,转换它们,最后生成平面文件,然后放到本地文件系统中
标签: azure apache-spark bigdata