【发布时间】:2015-01-09 20:54:14
【问题描述】:
我正在使用BeautifulSoup 来解析一堆可能非常脏的HTML 文档。我偶然发现了一件非常奇怪的事情。
HTML 来自此页面:http://www.wvdnr.gov/
它包含多个错误,例如<head>之外的多个<html></html>、<title>等...
但是,即使在这些情况下,html5lib 通常也能正常工作。事实上,当我这样做时:
soup = BeautifulSoup(document, "html5lib")
我 pretti-print soup,我看到以下输出:http://pastebin.com/8BKapx88
其中包含很多<a>标签。
但是,当我执行soup.find_all("a") 时,我得到一个空列表。使用lxml 我得到了同样的结果。
那么:以前有人偶然发现过这个问题吗?到底是怎么回事?如何获取 html5lib 找到但没有返回 find_all 的链接?
【问题讨论】:
标签: python html beautifulsoup html-parsing html5lib