【发布时间】:2017-02-13 15:33:41
【问题描述】:
当我在所有任务成功后将数据帧中的数据写入 parquet 表(已分区)时,进程卡在更新分区统计信息。
16/10/05 03:46:13 WARN log: Updating partition stats fast for:
16/10/05 03:46:14 WARN log: Updated size to 143452576
16/10/05 03:48:30 WARN log: Updating partition stats fast for:
16/10/05 03:48:31 WARN log: Updated size to 147382813
16/10/05 03:51:02 WARN log: Updating partition stats fast for:
df.write.format("parquet").mode("overwrite").partitionBy(part1).insertInto(db.tbl)
我的表有 > 400 列和 > 1000 个分区。 如果我们可以优化和加速更新分区统计信息,请告诉我。
【问题讨论】:
标签: apache-spark hive apache-spark-sql spark-dataframe