【发布时间】:2015-01-26 17:28:37
【问题描述】:
您好,我正在尝试获取此页面上每个会计师事务所的名称、地址和电话号码:
http://accountantlist.com.au/x123-Accountants-in-Sydney.aspx?Page=0
我无法将树导航到信息所在的位置。
在 Python 中使用“美丽的汤”和“请求”这就是我尝试获取公司名称的方式:
import bs4
import requests
page = request.get('http://accountantlist.com.au/x123-Accountants-in-Sydney.aspx?Page=0')
soup = bs4.BeautifulSoup(page.text)
name = soup.select('......')
所以基本上我只是按照我使用 chrome 开发者工具找到的选择器沿着树向下走:
#ctl00_ContentPlaceHolder1_dgLawyers > tbody > tr:nth-child(2) > td > table > tbody > tr:nth-child(1) > td:nth-child(1) > a
但美汤不会接受这条路。我也试过不带“>”符号。
我尝试的第二种方法是只查看树并输入 css 选择器,从正文向下到我想要的位置,如下所示:
soup.select('body table tbody tr ... etc')
但这也不起作用。
我想这个问题最终归结为我怎样才能写出一个美丽的汤会接受的路径。有人能解释一下我如何解决这个问题吗?
感谢任何帮助。
【问题讨论】:
标签: python html css-selectors beautifulsoup html-parsing