【发布时间】:2018-05-08 16:51:07
【问题描述】:
我们计划每天进行批处理。我们每天生成 1 GB 的 CSV 文件,并将它们手动放入 Azure Data Lake Store。我已阅读有关批处理的 Microsoft Azure 文档,并决定使用 Spark 进行批处理。我的问题是,在我们使用 RDD/DF 传输数据之后,下一步是什么?我们如何可视化数据?由于这个过程应该每天运行,一旦使用 Spark 完成数据转换,我们是否需要将数据推送到任何类型的数据存储,如 hive hdfs 或 cosmos,然后才能对其进行可视化?
【问题讨论】:
标签: azure apache-spark azure-data-lake