【问题标题】:SPARK : How to access AzureFileSystemInstrumentation when using azure blob storage with spark cluster?SPARK:将 Azure Blob 存储与 Spark 集群一起使用时如何访问 AzureFileSystemInstrumentation?
【发布时间】:2019-12-11 08:22:33
【问题描述】:

我正在开发一个 spark 项目,其中存储接收器是 Azure Blob 存储。我以镶木地板格式写入数据。我需要一些关于存储的指标,例如。 numberOfFilesCreatedwrittenBytes 等。在网上搜索时,我发现了一个特定的指标,hadoop-azure 包称为AzureFileSystemInstrumentation。我不确定如何从 spark 访问相同的内容,也找不到相同的任何资源。对于给定的 Spark 作业,如何访问此工具?

【问题讨论】:

    标签: azure apache-spark hadoop azure-blob-storage metrics


    【解决方案1】:

    根据我的经验,我认为在您当前的场景中可以使用三种解决方案,如下所示。

    1. 直接使用Hadoop API for HDFS 来获取 Spark 中的 HDFS Metrics Data,因为hadoop-azure 只是实现了使用 Azure Blob Storage 的 HDFS API,所以请参阅Metrics 的 Hadoop 官方文档以了解您的具体指标想用,比如下图CreateFileOps或者FilesCreated就可以得到numberOfFilesCreated。同时,还有一个类似的SO线程How do I get HDFS bytes read and write for Spark applications?可以参考。

    2. 直接使用Azure Storage SDK for Java或其他你编写程序的语言对Azure Blob Storage中存储的文件进行统计,按照创建时间戳或其他方式排序,请参考官方文档@987654325 @知道如何使用它的SDK。

    3. 使用带有Blob Trigger的Azure Function来监控Azure Blob Storage中创建的文件的事件,然后你可以编写代码来统计每个blob创建的事件,请参考官方文档Create a function triggered by Azure Blob storage了解如何使用 Blob 触发器。甚至,您可以将这些指标发送到 Azure 表存储或 Azure SQL 数据库或其他服务,以便稍后在 Azure Blob 触发函数中进行统计。

    【讨论】:

      猜你喜欢
      • 2019-10-14
      • 1970-01-01
      • 1970-01-01
      • 2018-04-21
      • 2015-12-10
      • 2016-03-22
      • 2019-03-08
      • 2020-07-15
      • 2020-04-16
      相关资源
      最近更新 更多