【发布时间】:2017-09-13 13:35:49
【问题描述】:
我想将单个 DataFrame 保存到 2 个不同的 csv 文件中(拆分 DataFrame)——一个只包含标题,另一个包含其余的行。
我想将这 2 个文件保存在同一目录下,因此如果可能,Spark 处理所有逻辑将是最好的选择,而不是使用 pandas 拆分 csv 文件。
最有效的方法是什么?
感谢您的帮助!
【问题讨论】:
-
只需进行子进程调用并使用 bash 进行。这样应该更容易。
-
@philantrovert 例如,处理 ~1TB 文件可能会很慢,即使使用 bash ;)
标签: python apache-spark pyspark