【问题标题】:batch processing in azure天蓝色的批处理
【发布时间】:2018-05-08 16:51:07
【问题描述】:

我们计划每天进行批处理。我们每天生成 1 GB 的 CSV 文件,并将它们手动放入 Azure Data Lake Store。我已阅读有关批处理的 Microsoft Azure 文档,并决定使用 Spark 进行批处理。我的问题是,在我们使用 RDD/DF 传输数据之后,下一步是什么?我们如何可视化数据?由于这个过程应该每天运行,一旦使用 Spark 完成数据转换,我们是否需要将数据推送到任何类型的数据存储,如 hive hdfs 或 cosmos,然后才能对其进行可视化?

【问题讨论】:

    标签: azure apache-spark azure-data-lake


    【解决方案1】:

    在 Azure 上有多种选择。这实际上取决于您的要求(例如用户数量、所需的可视化等)。示例:

    • 在 Azure Databricks 上运行 Spark,您可以使用 Notebook 功能来可视化您的数据
    • 将 HDInsight 与 Jupyter 或 Zeppelin 笔记本结合使用
    • 在 Azure Databricks 上定义 Spark 表并使用 Power BI 将其可视化
    • 使用 Azure 数据工厂 V2 将数据加载到 Azure SQL DB 或 Azure SQL 数据仓库,并使用 Power BI 将其可视化。
    • 对于时序数据,您可以通过 Spark 将数据推送到 Azure EventHubs(请参阅下面的 documentation 中带有 EventHubs Sink 的示例笔记本)并通过 Azure 时序见解使用它。如果你有一个 EventData-Stream,这也可以在未来取代你的面向批处理的架构。 Azure 时序见解将 Parquet 文件用作长期存储(请参阅以下link)。对于 Spark,还可以查看 Time Series Package,它为 spark 添加了一些时间序列功能。

    【讨论】:

    • 感谢您的回复。好吧,我们从许多设备收到时间序列仪表数据: 相位时间 (UTC) 传感器电压 (Vrms) 电流 (Arms) 有功功率 (kW) 无功功率 (kVAr) A 30/11/2017 0:00 1 242.049 94.7869 22.6874 3.4158 B 30/11/2017 0:00 2 242.648 58.2347 13.9256 2.39754 C 30/11/2017 0:00 3 243.448 74.8243 17.0897 6.30549 A 30/11/2017 0:10 1 241.358 93.3049 22.2974 3.15765 This is how our data looks like ,目前,我们正在考虑每天处理 1 GB CSV 文件的批处理,但后来,我们也实现了实时处理。
    • 我的第一个问题是 Power BI 在 Jupyter 或 Zeppelin Notebooks 可视化上提供了什么,既然是时间序列,我们应该使用像 influx 这样的时间序列数据库吗?还是面向列的文件格式(如 parquet)在使用 spark 处理之前或之后存储数据?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多