【发布时间】:2017-04-10 18:56:37
【问题描述】:
我正在使用 WholeTextFiles 方法读取大小为 8.2 GB 的文本文件(文件夹中的所有文件)。
读取文件的作业有 3 个执行器,每个执行器有 4 个核心和 4GB 内存,如图所示。
虽然作业页面显示了 3 个执行程序,但只有 2 个执行程序真正在处理数据。(我可以从 stderr 日志中理解这一点,它会打印它正在读取的文件)。第三个执行者没有任何迹象表明它正在处理文件。
wholetextfile API 有 2 个分区..
2 个执行程序有 4GB,每个执行程序总共 8GB 内存。但我的文件有 8.2GB。
谁能解释一下这 2 个 8GB 内存的执行器是如何拥有 8.2GB 文件的?
我的工作已成功完成。
【问题讨论】:
标签: apache-spark apache-spark-sql spark-streaming