【发布时间】:2017-01-05 23:05:37
【问题描述】:
我对 lxml 和 xpaths 了解不多,我想学习如何从网站上抓取数据。当我运行这段代码时,我没有得到任何结果,也不知道为什么。请帮我解决它。
代码在这里
from lxml import html
import requests
pageLen=str(100)
page = requests.get('http://www.yellowpages.com/search?search_terms=lawyer&geo_location_terms=usa&page=2')
print(page)
tree = html.fromstring(page.content)
#phoneNumber = tree.xpath('//span[@class="c411Phone"]/text()')
Link=tree.xpath('//div[@class="info"]/a/@href')
Bname=tree.xpath('//a[@class="business-name"]/text()')
print(Bussiness_names)
print(Bname)
HTML 代码
【问题讨论】:
-
你考虑过使用美汤吗? pythonforbeginners.com/python-on-the-web/…
-
我没有尝试漂亮的肥皂。我不能使用 lxml 提取链接吗?
-
如果你不知道 xpaths 是如何工作的,你需要去了解 xpaths 并阅读 lxml 文档。
-
你能给我推荐什么好书或教程吗?
-
lxml 文档很丰富,pdf 格式lxml.de/3.4/lxmldoc-3.4.4.pdf,w3schools 有很好的xpath 教程w3schools.com/xsl/xpath_intro.asp
标签: python web-scraping lxml