【发布时间】:2019-04-15 23:20:42
【问题描述】:
我正在使用 Zeppelin v0.7.3 笔记本运行 Pyspark 脚本。在一段中,我正在运行脚本以将数据从 dataframe 写入 Blob 文件夹中的 parquet 文件。文件按国家/地区进行分区。数据帧的行数为99,452,829。当脚本到达1 hour时,遇到错误-
400 StatusCode 错误:“要求失败:会话不存在 活跃。
我的笔记本默认解释器是jdbc。我已阅读有关 timeoutlifecyclemanager 的信息,并在解释器设置中添加了 zeppelin.interpreter.lifecyclemanager.timeout.threshold 并将其设置为 7200000,但在处理完成 33% 时达到 1 小时运行时间后仍然遇到错误。
我在 1 小时超时后检查了 Blob 文件夹,并且 parquet 文件已成功写入 Blob,这些文件确实按国家/地区进行了分区。
我正在运行的将 DF 写入 parquet Blob 的脚本如下:
trdpn_cntry_fct_denom_df.write.format("parquet").partitionBy("CNTRY_ID").mode("overwrite").save("wasbs://tradepanelpoc@blobasbackupx2066561.blob.core.windows.net/cbls/hdi/trdpn_cntry_fct_denom_df.parquet")
这是 Zeppelin 超时问题吗?如何将其延长超过 1 小时的运行时间?感谢您的帮助。
【问题讨论】:
标签: python apache-spark apache-zeppelin livy