【发布时间】:2013-05-12 08:00:34
【问题描述】:
我正在学习使用 Python Selenium 和 BeautifulSoup 进行网页抓取。目前,我正在尝试抓取Google搜索趋势的热搜http://www.google.com/trends/hottrends#pn=p5
这是我当前的代码。但是,我意识到没有下载完整的 html,我只有最近几个日期的内容。我该如何解决这个问题?
from selenium import webdriver
from bs4 import BeautifulSoup
googleURL = "http://www.google.com/trends/hottrends#pn=p5"
browser = webdriver.Firefox()
browser.get(googleURL)
content = browser.page_source
soup = BeautifulSoup(content)
print soup
【问题讨论】:
-
通过 selenium 使用 webdrivers 的任何具体原因?
-
@Torxed -- 我怀疑这是因为动态内容/javascript处理......
-
是的,我尝试了 urllib2,但由于动态内容/javascript,它不起作用
-
@Torxed -- 好吧,OP 确实链接了实际页面。
-
@Torxed 我对 StackOverflow 很陌生,我没有给你投反对票