使用 Python 使用 Javascript 抓取网页答案

【问题标题】：Web scraping a page with Javascript using Python使用 Python 使用 Javascript 抓取网页
【发布时间】：2013-12-04 16:28:30
【问题描述】：

我正在尝试使用 Python 抓取作为 url 列表的网页。我可以使用 Python 和漂亮的汤毫无问题地抓取第一页，但是如果 url 列表很长，它会使用以下 JavaScript 在第二页上继续。

href="javascript:__doPostBack('WQResultGridView','Page$2')

我不知道如何进入第二页。

【问题讨论】：

我不确定是否可以使用 BeautifulSoup 处理（至少无需对 javascript 进行逆向工程）。检查以下软件包之一：mechanize、scrapy。你甚至可以试试selenium 比我更有见识的人可以帮助你了解具体情况。
首页的url是什么？

【解决方案1】：

我猜这个调用会被翻译成一个http（post，顾名思义）请求。

查看 firebug 的“net”选项卡，了解该请求的结构并使用 python 运行相同的请求。

另一种更通用的处理方法是加载页面并使用http://phantomjs.org/之类的工具运行它所拥有的javascript

【讨论】：