【发布时间】:2017-01-28 21:46:42
【问题描述】:
我正在尝试获取和读取 zip 文件中的文本文件上传到 aws s3 存储桶
我试过的代码
var ZipFileList = spark.sparkContext.binaryFiles(/path/);
var unit = ZipFileList.flatMap {
case (zipFilePath, zipContent) =>
{
val zipInputStream = new ZipInputStream(zipContent.open())
val zipEntry = zipInputStream.getNextEntry()
println(zipEntry.getName)
}
}
但它给出了一个错误unit required traversableOnce
val files = spark.sparkContext.wholeTextFiles(/path/))
files.flatMap({case (name, content) =>
unzip(content) //gives error "type mismatch; found : Unit required: scala.collection.GenTraversableOnce[?]"
})
有没有其他方法可以读取 zip 文件中的文件内容... zip 文件包含 .json 文件,我想要实现的是读取和解析所有这些文件
【问题讨论】:
标签: scala amazon-web-services apache-spark amazon-s3