【发布时间】:2017-03-23 22:20:39
【问题描述】:
我正在尝试从以下网站抓取内容:
https://mobile.admiral.at/en/event/event/all#/event/15a822ab-84a1-e511-90a2-000c297013a7
我之前已经使用 dryscrape 和以下代码成功抓取了内容:
import dryscrape
import webkit_server
from lxml import html
session = dryscrape.Session()
session.set_timeout(20)
session.set_attribute('auto_load_images', False)
session.visit('https://mobile.admiral.at/en/event/event/all#/event/15a822ab-84a1-e511-90a2-000c297013a7')
response = session.body()
tree = html.fromstring(response)
print(tree.xpath('(//td[@class="team-name"]/text())[1]'))
上面的示例将打印主队(在本例中为“France”)
好像源码结构变了,无法正常抓取内容。
让我感到困惑的是,我可以使用 Firefox Inspector 工具查看标签,但是当我拉取源代码时,它在响应中不可见。
我认为他们一定以某种方式隐藏了内容,以使 (?) 无法抓取数据。
有人可以指出正确的方向如何正确抓取内容。
【问题讨论】:
标签: python web-scraping