【发布时间】:2019-01-20 11:05:22
【问题描述】:
这里有新的 Spark 用户。我无法通过 Spark 找到有关 JSON 和同一数据帧的 parquet 输出之间的文件大小比较的任何信息。
目前使用非常小的数据集进行测试,执行 df.toJSON().collect() 然后写入磁盘会创建一个 15kb 的文件。但是执行 df.write.parquet 会创建 105 个文件,每个文件大约 1.1kb。为什么在这种情况下,parquet 的总文件大小比 JSON 大得多?
提前致谢
【问题讨论】:
标签: apache-spark parquet