【发布时间】:2018-07-31 04:38:36
【问题描述】:
我在使用 pyspark 持久化数据集时遇到了 stackoverflow 错误。我将整个数据帧转换为双类型,然后坚持计算统计数据,我读到检查点是stackoverflow的解决方案。但是,我无法在 dataproc 中实现它。
我正在使用 pyspark,当我检查数据帧并使用 df.isCheckpointed() 检查点时,它返回 false。但是,当我调试它时,df.rdd.is_checkpointed 说 True。包裹有什么问题/我做错了吗?
我认为 localCheckpoint 更适合我的目的(https://spark.apache.org/docs/2.3.1/api/java/org/apache/spark/rdd/RDD.html#localCheckpoint()),因为我的问题只是 DAG 深度太深,但我找不到任何用例。另外,如果我只是检查点 RDD 说它是检查点(如第一个问题),但如果我尝试 localcheckpoint,它说它不是。有人试过这个功能吗?
尝试本地独立模式后,我尝试使用 dataproc。我尝试了 hdfs 和谷歌云存储,但无论哪种方式存储都是空的,但 rdd 说它是检查点。
谁能帮我解决这个问题?提前致谢!
【问题讨论】:
标签: apache-spark pyspark google-cloud-dataproc