【发布时间】:2019-08-06 23:54:26
【问题描述】:
我需要使用 Spark 将一个巨大的未压缩文本文件 (>20GB) 读入 RDD。文件中的每条记录跨越多行(每条记录sc.textFile。我正在考虑使用带有自定义分隔符的SparkContext.newAPIHadoopFile。但是,由于文件相当大,我很好奇读取和解析是否会分布在多个 Spark 执行器或仅一个节点上?
文件内容如下:
record A
content for record A
content for record A
content for record A
record B
content for record B
content for record B
content for record B
...
【问题讨论】:
标签: apache-spark pyspark