【发布时间】:2020-09-13 15:12:21
【问题描述】:
我需要在 spark 中对一些文本文件进行批处理。基本上有人给了我大量畸形的 csv 文件。它们包含多行任意文本格式的标题数据,然后是多行格式正确的 csv 数据。我需要将此数据拆分为两个文件,或者至少以某种方式摆脱标题。
无论如何,我已经读到你可以得到一个格式如下的 RDD:
[(文件名,内容)]
通过使用
火花\ .sparkContext \ .wholeTextFiles(input_files_csv)
然后我想在这个 RDD 上执行一个映射操作,这会产生与原始格式完全相同的另一种格式
[(新文件名,内容)]
然后我希望集群将这些内容保存在这些文件名下。
我找不到可以为我执行此操作的写入命令。我可以保存 RDD raw,但我不能将它保存为普通文件,以便以后读取为数据帧。
我想我可以删除标题,然后将文件名保存为一个巨大的 csv 文件作为新列,但我觉得这样不会那么有效。
有人能解决我的问题吗?
【问题讨论】:
标签: apache-spark pyspark rdd