【发布时间】:2018-08-28 02:31:56
【问题描述】:
我正在尝试使用内置的 pandas 方法 .str.extract 从我已导入的数据框中的列中提取子字符串。列中的条目都遵循这种结构:
x.xx% Test1 Test2 Test3 XYZ|ZYX Oct 2018
所以本质上它始终是一个浮点 %,后跟一个字符串(单词的长度并不总是相同),后跟一个三字母代码,即 XYZ 或 ZYX 以及之后的日期。
我正在尝试从上面的示例中提取 Test1、Test2 和 Test3,这意味着我想去掉开头的百分比,并且在 XYZ|ZYX 出现的地方我想要所有的东西(包括三个字母代码) .
我整个上午都在阅读正则表达式,但我正在努力使用 pandas 提取物构建一些代码,这些代码可以准确地提取出我想要的内容。有什么建议?我得到的最远的是下面的,它只从一开始的百分比中提取(试图将它分成三类):
.str.extract('(\d\.\d+%.)')
【问题讨论】:
标签: python regex string pandas