【发布时间】:2021-12-17 22:12:30
【问题描述】:
我recently had a issue with with one of my spark jobs,在那里我正在读取一个包含数十亿条记录的配置单元表,由于磁盘利用率高导致作业失败,但是在添加 AWS EBS 卷后,作业运行没有任何问题。虽然它解决了这个问题,但我几乎没有疑问,我尝试进行一些研究但找不到任何明确的答案。所以我的问题是?
当 spark SQL 读取 hive 表时,如果我没有明确指定任何内容,那么数据最初存储在哪里进行处理,就其存储而言,数据的整个生命周期是什么?以及添加 EBS 卷如何解决这个问题?
【问题讨论】:
标签: apache-spark pyspark hive apache-spark-sql