【问题标题】:what is the best way to get azure blob storage获得 azure blob 存储的最佳方法是什么
【发布时间】:2018-03-17 01:51:46
【问题描述】:

我正在使用 scala 和 spark,需要访问 azure blob 存储并获取其文件列表。了解 spark 版本的最佳方法是 2.11。

【问题讨论】:

    标签: azure apache-spark spark-dataframe azure-blob-storage sca


    【解决方案1】:
    1. 对于本地运行的Spark,有官方blog介绍了如何从Spark访问Azure Blob Storage。关键是您需要在 core-site.xml 文件中将 Azure 存储帐户配置为与 HDFS 兼容的存储,并将两个 jars hadoop-azure 和 azure-storage 添加到您的类路径中,以便通过协议 wasb[s] 访问 HDFS。您可以参考官方tutorial了解使用wasb的HDFS兼容存储,以及blog关于HDInsight配置的更多详细信息。
    2. 对于运行在Azure上的Spark,区别只是用wasb访问HDFS,其他的准备工作已经由Azure完成了 使用 Spark 创建 HDInsight 群集。列出文件的方法 是 SparkContext 的 listFileswholeTextFiles

    【讨论】:

      猜你喜欢
      • 2012-07-18
      • 1970-01-01
      • 2020-11-30
      • 2021-07-05
      • 1970-01-01
      • 2022-01-02
      • 2015-02-25
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多