【发布时间】:2014-12-06 18:30:19
【问题描述】:
我正在使用 REGEX 从 Python 中的 HTML 文档编译字符串列表。字符串要么在 td 标签内,要么在 div 标签内。我在正确使用 REGEX OR 以防止发生以下问题时遇到问题。如果我使用:
FindStrings= re.compile('<td>(.*?)</td>|padding:0;">(.*?)</div>')
MyStrings = re.findall(FindStrings, str(soup))
print MyStrings
我会得到类似的东西:
[('apple', ''), ('sky', ''), ('red', ''), ('', 'summer'), ('', 'pizza')]
我知道括号左侧的字符串是<td>(.*?)</td>,而右侧的字符串是</td>|padding:0;">(.*?)</div>。我想知道应该在 REGEX 中添加什么以获得最终列表,如下所示:
['apple', 'sky', 'red', 'summer', 'pizza']
【问题讨论】:
标签: python html regex html-parsing