【发布时间】:2019-06-27 11:32:14
【问题描述】:
我在 pySpark 中有一些数据框 df,它是由调用产生的:
df = spark.sql("select A, B from org_table")
df = df.stuffIdo
我想覆盖脚本末尾的org_table。
由于禁止覆盖输入表,我检查了我的数据:
sparkContext.setCheckpointDir("hdfs:/directoryXYZ/PrePro_temp")
checkpointed = df.checkpoint(eager=True)
现在应该打破血统,我还可以使用checkpointed.show()(有效)查看我的检查点数据。不工作的是写表:
checkpointed.write.format('parquet')\
.option("checkpointLocation", "hdfs:/directoryXYZ/PrePro_temp")\
.mode('overwrite').saveAsTable('org_table')
这会导致错误:
原因:java.io.FileNotFoundException:文件不存在:hdfs://org_table_path/org_table/part-00081-4e9d12ea-be6a-4a01-8bcf-1e73658a54dd-c000.snappy.parquet
我已经尝试了几件事,比如在写作之前刷新 org_table 等,但我在这里感到困惑。 我该如何解决这个错误?
【问题讨论】:
-
嗨@Markus,有什么消息你是怎么解决这个问题的?
标签: python apache-spark pyspark pyspark-sql spark-checkpoint