【问题标题】:reading zip file from s3 bucket using scala spark使用 scala spark 从 s3 存储桶中读取 zip 文件
【发布时间】:2017-01-28 21:46:42
【问题描述】:

我正在尝试获取和读取 zip 文件中的文本文件上传到 aws s3 存储桶

我试过的代码

var ZipFileList = spark.sparkContext.binaryFiles(/path/);

   var unit =  ZipFileList.flatMap {
        case (zipFilePath, zipContent) =>
          {
          val zipInputStream = new ZipInputStream(zipContent.open())

          val zipEntry = zipInputStream.getNextEntry()
          println(zipEntry.getName)
          }
      }

但它给出了一个错误unit required traversableOnce

 val files = spark.sparkContext.wholeTextFiles(/path/))
    files.flatMap({case (name, content) =>
      unzip(content) //gives error "type mismatch; found : Unit required: scala.collection.GenTraversableOnce[?]" 
    })

有没有其他方法可以读取 zip 文件中的文件内容... zip 文件包含 .json 文件,我想要实现的是读取和解析所有这些文件

【问题讨论】:

    标签: scala amazon-web-services apache-spark amazon-s3


    【解决方案1】:

    您实际上并没有在 unzip() 命令中返回数据,是吗?我认为这是问题的一部分

    【讨论】:

    • 这不是我所经历过的领域...恐怕你必须在那里进行自己的在线研究
    • 嗯,我有一种工作方式,首先下载 zip 文件,然后在本地解压缩,然后使用 spark 作业上传解压缩的文件..:)
    猜你喜欢
    • 2019-03-25
    • 1970-01-01
    • 2017-11-19
    • 1970-01-01
    • 2021-05-14
    • 1970-01-01
    • 1970-01-01
    • 2020-07-04
    • 2020-01-02
    相关资源
    最近更新 更多