【发布时间】:2012-12-16 16:11:57
【问题描述】:
在 URL 中包含“alpha”的链接上有许多链接(hrefs),我想从 20 个不同的页面收集这些链接并粘贴到一般 url 的末尾(倒数第二行)。 href 可以在一个表中找到,哪个类是 mys-elastic mys-left 对于 td 和 a 显然是包含 href 属性的元素。任何帮助将不胜感激,因为我已经为此工作了大约一周。
for i in range(1, 11):
# The HTML Scraper for the 20 pages that list all the exhibitors
url = 'http://ahr13.mapyourshow.com/5_0/exhibitor_results.cfm?alpha=%40&type=alpha&page=' + str(i) + '#GotoResults'
print url
list_html = scraperwiki.scrape(url)
root = lxml.html.fromstring(list_html)
href_element = root.cssselect('td.mys-elastic mys-left a')
for element in href_element:
# Convert HTMl to lxml Object
href = href_element.get('href')
print href
page_html = scraperwiki.scrape('http://ahr13.mapyourshow.com' + href)
print page_html
【问题讨论】:
-
到底是什么问题?
-
你对
XPath有多熟悉? -
rds:问题是它没有获取 href 属性并将其保存为变量以供以后添加到基本 url。 Jon Clements:我才真正了解它,直到我刚刚搜索它,这个词很有帮助,谢谢。
标签: python web-scraping lxml scraperwiki