【发布时间】:2014-09-08 04:58:23
【问题描述】:
我是 Python 新手,我正在学习它是为了抓取,我正在使用 BeautifulSoup 来收集链接(即“a”标签的 href)。我正在尝试收集站点http://allevents.in/lahore/ 的“即将举行的活动”选项卡下的链接。我正在使用 Firebug 来检查元素并获取 CSS 路径,但这段代码没有返回任何内容。我正在寻找解决方法以及一些关于如何选择适当的 CSS 选择器以从任何站点检索所需链接的建议。我写了这段代码:
from bs4 import BeautifulSoup
import requests
url = "http://allevents.in/lahore/"
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data)
for link in soup.select( 'html body div.non-overlay.gray-trans-back div.container div.row div.span8 div#eh-1748056798.events-horizontal div.eh-container.row ul.eh-slider li.h-item div.h-meta div.title a[href]'):
print link.get('href')
【问题讨论】:
-
你真的不需要为你的选择器这么具体,真的。
-
但是有实际问题吗?代码有效,无效,您期望发生什么?
-
另外,don't use
r.text, user.content在这里。 -
@Martijn Pieters 代码不起作用。我希望获得allevents.in/lahore“即将举行的活动”选项卡下列出的所有活动的链接@
-
@MartijnPieters 没有使用 r.content,因为我计划提取一些文本和链接,但目前我无法检索所需的链接
标签: python css css-selectors beautifulsoup firebug