【发布时间】:2016-09-04 20:52:11
【问题描述】:
我正在尝试制作一个简单的网络爬虫 我有一个类似这样的 htm 文件:
<!DOCTYPE html>
<title>some text</title>
<div class="ui-box-title">Item specifics</div>
<ul>
<li>Coffee</li>
<li>Tea</li>
<li>Milk</li>
</ul>
<div class="description">Item specifics</div>
<li>not interesting</li>
<li>not interesting</li>
<li>not interesting</li>
...
我如何只提取咖啡茶和牛奶?我试过这个
allaftuibox=soup.find_all_next("div", { "class" : "ui-box-title" }):
allaftuibox.find_all("ul")
但是 allaftuibox 是空的。我在哪里犯错误?我如何只提取 ul? 有人可以帮我吗?
【问题讨论】:
-
您的方法实际上看起来不错。您确定
soup包含此列表吗? -
是的。刚把汤写到一个文件里。在那里。有没有可能真正的html被某种方式破坏了?
标签: python-2.7 web-crawler bs4