【发布时间】:2010-08-17 17:07:24
【问题描述】:
我正在使用 Beautifulsoup 解析网站
request = urllib2.Request(url)
response = urllib2.urlopen(request)
soup = BeautifulSoup.BeautifulSoup(response)
我正在使用它来遍历一个表。我遇到的问题是 BS 正在将表格的额外结束标记添加到不存在的 html 中,我使用以下方法进行了验证:print soup.prettify()。因此,其中一个 td 标记被排除在表之外,我无法选择它。
【问题讨论】:
-
你能发布无效的html代码的基本结构吗?
-
也希望得到这个答案。就我而言,似乎 BS 在页面的源代码中添加了 not 的标签
标签: python html-parsing beautifulsoup