【发布时间】:2020-08-24 15:58:54
【问题描述】:
我需要从数据框中的列中删除日期和时间字符串,该列具有不均匀的分隔符行,即一些带有三个逗号和一些带有四个逗号。
我正在使用 Python3,熊猫
例子:
df['sample field'].head(2)
返回
"4294-Skateboard Foundation (MSF) Advanced Rider Course (ARC) , 1134123 , Oct 24 2016 12:00AM ,"
"1254-Skateboard Foundation (MSF) Experienced Rider Courses (ERC/BRC 2) , 3217121 , May 15 2015 12:00AM ,"
"4457-Total Control, Level 1 (Advanced Skateboarding Clinic) (TCL1) , 6743468 , Nov 11 2013 12:00AM ,"
预期回报
"4294-Skateboard Foundation (MSF) Advanced Rider Course (ARC) 1134123"
"1254-Skateboard Foundation (MSF) Experienced Rider Courses (ERC/BRC 2) 3217121"
"4457-Total Control Level 1 (Advanced Skateboarding Clinic) (TCL1) 6743468"
我试图弄清楚如何去除日期和时间值:在背面,如果将文本字符串放入新列:Intended Returned。
为了做相反的事情,我使用了以下内容:
df3_1['Date'] = df3_1['Course ID'].str.extract('([A-Za-z]+\s+\d+\s+\d+\s+\d+:[0-9A-Z]+(?=\s+\,+))')
这在去除日期方面非常有效,但我现在正试图找出如何在没有日期的情况下保留文本。
【问题讨论】:
-
是字符串末尾的逗号吗?我似乎在这里找不到多个分隔符,因为您可以通过
rsplit在,上选择它。如果您共享两行的数据框,并且您的预期输出也采用数据框格式,则更容易
标签: python-3.x regex pandas dataframe split