【发布时间】:2011-11-22 10:52:35
【问题描述】:
我想知道如何在用 Beautiful Soup 解析之前修复损坏的 html 标签。
在以下脚本中,td> 需要替换为 <td。
如何进行替换以便 Beautiful Soup 可以看到?
from BeautifulSoup import BeautifulSoup
s = """
<tr>
td>LABEL1</td><td>INPUT1</td>
</tr>
<tr>
<td>LABEL2</td><td>INPUT2</td>
</tr>"""
a = BeautifulSoup(s)
left = []
right = []
for tr in a.findAll('tr'):
l, r = tr.findAll('td')
left.extend(l.findAll(text=True))
right.extend(r.findAll(text=True))
print left + right
【问题讨论】:
标签: python regex beautifulsoup