【发布时间】:2014-08-05 15:03:01
【问题描述】:
我最近正在学习关于使用 Python 抓取网站的课程。网站 URL 为“http://www.kiva.org/lend/742129”。这是一个慈善网站。我想抓取的内容是关于这个项目的贡献者。而且我确信它使用了一些我不知道它是如何工作的 JS 技术。
我试图分析 html 源页面,但我只发现当我单击更多按钮时,整个页面源都发生了变化。所以我可以抓取内容,除非我点击 JS 链接。但我就是不知道如何在 python 中模拟网络浏览器。
通过询问班上的导师,我被告知是使用一个名为 request 的模块还是另一个名为 mechanize 的模块,但这些对我来说都不起作用。我厌倦了使用名为 selenium 的模块,但它太复杂了,我迷路了..
有没有人可以给我一些关于如何使它工作的建议。我真的是网站和网络抓取的初学者。而且我完全不知道如何分析 html 并列出贡献者名单。
【问题讨论】:
标签: javascript python html selenium web-scraping