【发布时间】:2017-01-30 20:19:11
【问题描述】:
试图解析一个固定宽度的文本文件。
我的文本文件如下所示,我需要一个行 ID、日期、一个字符串和一个整数:
00101292017you1234
00201302017 me5678
我可以使用 sc.textFile(path) 将文本文件读取到 RDD。 我可以使用已解析的 RDD 和模式创建 DataFrame。 就是这两个步骤之间的解析。
【问题讨论】:
标签: python apache-spark pyspark fixed-width