【问题标题】:Splitting Columns that contains delimiters using Python使用 Python 拆分包含分隔符的列
【发布时间】:2019-10-18 04:08:51
【问题描述】:

我是一个包含 100 多列的传入文件,其中在某些列中我们有逗号分隔的值。 我必须将这些分隔列转换为具有相同列标题及其序列的多列。

例如..如果我的输入低于..

姓名、年龄、兴趣、运动、性别、年份 aaa,44,"电影,扑克","网球,棒球",M,2000 bbb,23,"电影","曲棍球,棒球",F,2018

输出应该是..我们不应该对列名进行硬编码..无论哪一列有,都应该拆分。

姓名、年龄、兴趣_1、兴趣_2、运动_1、运动_2、性别、年份 aaa,44,电影,扑克,网球,棒球,M,2000 bbb, 23, 电影, 曲棍球, 棒球, F, 2018

【问题讨论】:

  • 能否请您添加您已经拥有的代码来解决任务(即使它不完整或不起作用)?此外,如果您使用的是框架或库,请同时提及。

标签: python apache-spark split


【解决方案1】:

将这些列用作您要创建的文件的列:-

st = '''name,age,interests,sports,gender,year aaa,44,"movies,poker","tennis,baseball",M,2000 bbb,23,"movies","hockey,baseball",F,2018'''
columns = st.split(',')

>>columns
['name',
 'age',
 'interests',
 'sports',
 'gender',
 'year aaa',
 '44',
 '"movies',
 'poker"',
 '"tennis',
 'baseball"',
 'M',
 '2000 bbb',
 '23',
 '"movies"',
 '"hockey',
 'baseball"',
 'F',
 '2018']

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-06-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-13
    • 1970-01-01
    • 2019-04-27
    • 1970-01-01
    相关资源
    最近更新 更多