【发布时间】:2017-08-31 00:27:34
【问题描述】:
我有几百个文件夹,每个文件夹在 s3 中都有数千个压缩文本文件,我正在尝试将它们读入带有 spark.read.csv() 的数据框。
文件中有一些长度为零,导致报错:
java.io.EOFException: 输入流意外结束
代码:
df = spark.read.csv('s3n://my-bucket/folder*/logfiles*.log.gz',sep='\t',schema=schema)
我尝试将mode 设置为DROPMALFORMED 并使用sc.textFile() 阅读,但没有运气。
处理空的或损坏的 gzip 文件的最佳方法是什么?
【问题讨论】:
标签: pyspark spark-dataframe pyspark-sql