【发布时间】:2013-12-04 16:28:30
【问题描述】:
我正在尝试使用 Python 抓取作为 url 列表的网页。我可以使用 Python 和漂亮的汤毫无问题地抓取第一页,但是如果 url 列表很长,它会使用以下 JavaScript 在第二页上继续。
href="javascript:__doPostBack('WQResultGridView','Page$2')
我不知道如何进入第二页。
【问题讨论】:
-
我不确定是否可以使用 BeautifulSoup 处理(至少无需对 javascript 进行逆向工程)。检查以下软件包之一:
mechanize、scrapy。你甚至可以试试selenium比我更有见识的人可以帮助你了解具体情况。 -
首页的url是什么?
标签: javascript python web screen-scraping