【发布时间】:2014-10-29 20:55:11
【问题描述】:
给定以下代码:
<html>
<body>
<div class="category1" id="foo">
<div class="category2" id="bar">
<div class="category3">
</div>
<div class="category4">
<div class="category5"> test
</div>
</div>
</div>
</div>
</body>
</html>
如何使用 BeautifulSoup 从<div class="category5"> test 中提取单词test,即如何处理嵌套的 div?我试图在 Internet 上查找,但我没有找到任何处理易于掌握的示例的案例,所以我设置了这个。谢谢。
【问题讨论】:
-
嵌套 div 怎么样?您要提取什么,为什么嵌套的 div 会阻碍实现该目标?您可以只搜索那些特定的 div,无论是否嵌套。
-
@MartijnPieters 我认为问题在于 div 相互嵌套,因为当我 mysoup.findAll('div', attrs={'class':'category5'})返回值为无!
-
@Andy 这不是重复阅读您也链接我们的其他问题。这里我们使用 attrs={...} 当你有一个像
这样的纯标签时,解决方案是不同的 @torr:不,如果您无法通过该搜索找到 div,那么它树中不存在。
标签: python web-scraping beautifulsoup