【发布时间】:2018-05-03 23:53:51
【问题描述】:
我有一个带有不同列数的管道分隔文件,如下所示:
id|name|attribute|extraattribute
1|alvin|cool|funny
2|bob|tall
3|cindy|smart|funny
我正在尝试找到一种优雅的方式来使用 pyspark 将其导入数据框。我可以尝试修复文件以添加尾随 |当最后一列丢失时(只能丢失最后一列),但希望找到不涉及更改输入文件的解决方案。
【问题讨论】:
-
一种选择可能是将其作为一个大列读入,在适当的时候在末尾添加一个
|,然后拆分成列,如this post所示。
标签: apache-spark pyspark