【问题标题】:Web scraping a page with Javascript using Python使用 Python 使用 Javascript 抓取网页
【发布时间】:2013-12-04 16:28:30
【问题描述】:

我正在尝试使用 Python 抓取作为 url 列表的网页。我可以使用 Python 和漂亮的汤毫无问题地抓取第一页,但是如果 url 列表很长,它会使用以下 JavaScript 在第二页上继续。

href="javascript:__doPostBack('WQResultGridView','Page$2')

我不知道如何进入第二页。

【问题讨论】:

  • 我不确定是否可以使用 BeautifulSoup 处理(至少无需对 javascript 进行逆向工程)。检查以下软件包之一:mechanizescrapy。你甚至可以试试selenium 比我更有见识的人可以帮助你了解具体情况。
  • 首页的url是什么?

标签: javascript python web screen-scraping


【解决方案1】:

我猜这个调用会被翻译成一个http(post,顾名思义)请求。

查看 firebug 的“net”选项卡,了解该请求的结构并使用 python 运行相同的请求。

另一种更通用的处理方法是加载页面并使用http://phantomjs.org/之类的工具运行它所拥有的javascript

【讨论】:

    猜你喜欢
    • 2011-12-24
    相关资源
    最近更新 更多