【发布时间】:2021-04-02 18:57:50
【问题描述】:
我正在尝试将 CSV 文件读入 Pyspark 中的数据框,但我有一个包含混合数据的 CSV 文件。它的部分数据属于它的相邻列。有什么方法可以修改python中的数据框以按预期获取输出数据框。
CSV 示例
ID , Name
'1' , 'Alice'
'2B' , 'ob'
'3Ri' , 'chard'
预期输出
ID, Name
1, 'Alice'
2, 'Bob'
3, 'Richard'
【问题讨论】:
-
数据从何而来?有没有办法从源头上解决? 有什么方法可以修改python中的数据帧以按预期获得输出数据帧。这完全取决于格式。你有没有尝试过什么,做过什么研究?
-
它是编码练习的一部分。我们的任务是清理数据并对其应用一些转换和操作。
标签: python pyspark pyspark-dataframes