【发布时间】:2016-12-21 21:54:16
【问题描述】:
我有以下字符串:
str1 = "I/TAG1 like/TAG2 red/TAG3 apples/TAG3 ./TAG4"
我在 python 中有两个列表
tokens = []
tags = []
我想要的输出是:
tokens = ['I', 'like', 'red', 'apples', '.']
tags = ['TAG1', 'TAG2', 'TAG3', 'TAG3', 'TAG4']
我正在尝试使用这样的正则表达式:
r"\w*\/"
但这会提取带有斜杠的单词,即 I/。我如何才能获得所需的输出,至少对于令牌(获取 / 之前的所有内容)?
【问题讨论】:
标签: python regex python-2.7 tokenize