SPARK：将 Azure Blob 存储与 Spark 集群一起使用时如何访问 AzureFileSystemInstrumentation？答案

【问题标题】：SPARK : How to access AzureFileSystemInstrumentation when using azure blob storage with spark cluster?SPARK：将 Azure Blob 存储与 Spark 集群一起使用时如何访问 AzureFileSystemInstrumentation？
【发布时间】：2019-12-11 08:22:33
【问题描述】：

我正在开发一个 spark 项目，其中存储接收器是 Azure Blob 存储。我以镶木地板格式写入数据。我需要一些关于存储的指标，例如。 numberOfFilesCreated、writtenBytes 等。在网上搜索时，我发现了一个特定的指标，hadoop-azure 包称为AzureFileSystemInstrumentation。我不确定如何从 spark 访问相同的内容，也找不到相同的任何资源。对于给定的 Spark 作业，如何访问此工具？

【问题讨论】：

标签： azure apache-spark hadoop azure-blob-storage metrics

【解决方案1】：

根据我的经验，我认为在您当前的场景中可以使用三种解决方案，如下所示。

直接使用Hadoop API for HDFS 来获取 Spark 中的 HDFS Metrics Data，因为hadoop-azure 只是实现了使用 Azure Blob Storage 的 HDFS API，所以请参阅Metrics 的 Hadoop 官方文档以了解您的具体指标想用，比如下图CreateFileOps或者FilesCreated就可以得到numberOfFilesCreated。同时，还有一个类似的SO线程How do I get HDFS bytes read and write for Spark applications?可以参考。
直接使用Azure Storage SDK for Java或其他你编写程序的语言对Azure Blob Storage中存储的文件进行统计，按照创建时间戳或其他方式排序，请参考官方文档@987654325 @知道如何使用它的SDK。
使用带有Blob Trigger的Azure Function来监控Azure Blob Storage中创建的文件的事件，然后你可以编写代码来统计每个blob创建的事件，请参考官方文档Create a function triggered by Azure Blob storage了解如何使用 Blob 触发器。甚至，您可以将这些指标发送到 Azure 表存储或 Azure SQL 数据库或其他服务，以便稍后在 Azure Blob 触发函数中进行统计。

【讨论】：