【发布时间】:2016-05-12 21:40:28
【问题描述】:
我正在尝试使用 PySpark 将具有约 5,000,000 行的 RDD 作为文本文件输出。这需要很长时间,那么有什么技巧可以让.saveAsTextFile() 更快?
每行有 3 列,我正在保存到 HDFS。
【问题讨论】:
-
您能否告诉我们需要多长时间,在什么样的集群和作业配置上?行有多大?
-
您是否将其保存到
HDFS?
标签: hadoop apache-spark google-cloud-storage pyspark google-cloud-dataproc