【发布时间】:2017-10-18 00:54:20
【问题描述】:
美好的一天。
我正在运行用于解析一些日志文件的开发代码。如果我尝试解析更少的文件,我的代码将顺利运行。但是随着我需要解析的日志文件数量的增加,它会返回不同的错误,例如too many open files 和Total size of serialized results of tasks is bigger than spark.driver.maxResultSize。
我尝试增加spark.driver.maxResultSize,但错误仍然存在。
你能给我一些关于如何解决这个问题的想法吗?
谢谢。
【问题讨论】:
-
在我的例子中,我将 maxResultSize 增加到超过 1 gb,问题得到解决。您的任务大小为 5 GB。你可以尝试给 6 GB 一次吗?
-
请出示代码...
标签: apache-spark pyspark