【发布时间】:2021-11-10 18:24:56
【问题描述】:
运行数据块以读取 csv 文件,然后保存为分区增量表。
文件中的总记录为 179619219 。它正在按 COL A(8419 个唯一值)和年份(10 年)和月份进行拆分。
df.write.partitionBy("A","year","month").format("delta").mode("append").save(path)
作业卡在写入步骤并在运行 5-6 小时后中止
【问题讨论】:
-
这里的答案非常有用。 stackoverflow.com/questions/60512207/…
标签: python apache-spark pyspark azure-databricks delta-lake