【发布时间】:2019-10-18 04:08:51
【问题描述】:
我是一个包含 100 多列的传入文件,其中在某些列中我们有逗号分隔的值。 我必须将这些分隔列转换为具有相同列标题及其序列的多列。
例如..如果我的输入低于..
姓名、年龄、兴趣、运动、性别、年份 aaa,44,"电影,扑克","网球,棒球",M,2000 bbb,23,"电影","曲棍球,棒球",F,2018
输出应该是..我们不应该对列名进行硬编码..无论哪一列有,都应该拆分。
姓名、年龄、兴趣_1、兴趣_2、运动_1、运动_2、性别、年份 aaa,44,电影,扑克,网球,棒球,M,2000 bbb, 23, 电影, 曲棍球, 棒球, F, 2018
【问题讨论】:
-
能否请您添加您已经拥有的代码来解决任务(即使它不完整或不起作用)?此外,如果您使用的是框架或库,请同时提及。
标签: python apache-spark split