【发布时间】:2016-07-28 12:20:35
【问题描述】:
我正在使用 PySpark。我在 s3 上有一个 gzip 的 json 文件列表,我必须访问、转换然后在 parquet 中导出到 s3。每个 json 文件包含大约 100k 行,因此并行化它没有多大意义(但我愿意并行化它),但我已经并行化了大约 5k 个文件。我的方法是将json文件列表传递给脚本->在列表上运行并行化->运行映射(?这是我被阻止的地方)。如何访问和转换 json 从转换后的 json 创建一个 DF 并将其作为镶木地板转储到 s3 中。
【问题讨论】:
-
您可以将逗号连接的路径列表传递给阅读器。
-
根据您的 spark 安装,您可以像这样直接从 spark 读取 s3:
rawtext = sc.textFile('s3://bucket/file') -
当我倾倒镶木地板时,它应该针对每个 json,意思是 1.json => 1.parquet,如果我用逗号分隔文件名,这种一致性将会丢失。
标签: json amazon-s3 apache-spark pyspark