【发布时间】:2020-07-23 18:46:38
【问题描述】:
我正在尝试编写一个粘合作业,将多个 csv 文件转换为单独的 json 文件,使用 csv 的每一行作为文件。作业完成后,s3 中会显示正确数量的文件,但有些是空的,有些在同一个文件中有多个 json 对象。
应用映射后,这就是我创建分区和写入文件的方式:
numEntities = applyMapping1.toDF().count()
partitions = applymapping1.repartition(numEntities)
partitions.toDF().write.mode("ignore").format("json").option("header", "true").save("s3://location/test")
使用这个,一些文件被创建为一个 json 文件,其中一个接一个地有 2 个对象,有些是正确的,有些是空的。
有什么方法可以确保每个分区创建一个仅包含其数据的单独文件?
【问题讨论】: