天蓝色的批处理答案

【问题标题】：batch processing in azure天蓝色的批处理
【发布时间】：2018-05-08 16:51:07
【问题描述】：

我们计划每天进行批处理。我们每天生成 1 GB 的 CSV 文件，并将它们手动放入 Azure Data Lake Store。我已阅读有关批处理的 Microsoft Azure 文档，并决定使用 Spark 进行批处理。我的问题是，在我们使用 RDD/DF 传输数据之后，下一步是什么？我们如何可视化数据？由于这个过程应该每天运行，一旦使用 Spark 完成数据转换，我们是否需要将数据推送到任何类型的数据存储，如 hive hdfs 或 cosmos，然后才能对其进行可视化？

【问题讨论】：

标签： azure apache-spark azure-data-lake

【解决方案1】：

在 Azure 上有多种选择。这实际上取决于您的要求（例如用户数量、所需的可视化等）。示例：

在 Azure Databricks 上运行 Spark，您可以使用 Notebook 功能来可视化您的数据
将 HDInsight 与 Jupyter 或 Zeppelin 笔记本结合使用
在 Azure Databricks 上定义 Spark 表并使用 Power BI 将其可视化
使用 Azure 数据工厂 V2 将数据加载到 Azure SQL DB 或 Azure SQL 数据仓库，并使用 Power BI 将其可视化。
对于时序数据，您可以通过 Spark 将数据推送到 Azure EventHubs（请参阅下面的 documentation 中带有 EventHubs Sink 的示例笔记本）并通过 Azure 时序见解使用它。如果你有一个 EventData-Stream，这也可以在未来取代你的面向批处理的架构。 Azure 时序见解将 Parquet 文件用作长期存储（请参阅以下link）。对于 Spark，还可以查看 Time Series Package，它为 spark 添加了一些时间序列功能。

【讨论】：

感谢您的回复。好吧，我们从许多设备收到时间序列仪表数据：相位时间 (UTC) 传感器电压 (Vrms) 电流 (Arms) 有功功率 (kW) 无功功率 (kVAr) A 30/11/2017 0:00 1 242.049 94.7869 22.6874 3.4158 B 30/11/2017 0:00 2 242.648 58.2347 13.9256 2.39754 C 30/11/2017 0:00 3 243.448 74.8243 17.0897 6.30549 A 30/11/2017 0:10 1 241.358 93.3049 22.2974 3.15765 This is how our data looks like ，目前，我们正在考虑每天处理 1 GB CSV 文件的批处理，但后来，我们也实现了实时处理。
我的第一个问题是 Power BI 在 Jupyter 或 Zeppelin Notebooks 可视化上提供了什么，既然是时间序列，我们应该使用像 influx 这样的时间序列数据库吗？还是面向列的文件格式（如 parquet）在使用 spark 处理之前或之后存储数据？