【发布时间】:2011-04-05 06:16:28
【问题描述】:
可能重复:
Where shall I start in making a scraper or a bot using python?
我知道这显然是可能的...... 我被要求实现某种机器人,它可以访问网站、登录、访问一组链接、填写带有日期输入的搜索表单以获取 XLS 文件并注销。 如果手动完成,整个过程几乎需要一个小时,所以脚本/机器人可以为我们节省很多时间。
想法?图书馆?我想我需要 urllib?
或者可能根本不使用 Python?
提前致谢!
编辑:我搜索了很多“python crawler”,直到 cmets 之前才发现 Mechanize 或 Scrapy:/
我将首先进一步研究机械化。谢谢。
【问题讨论】:
-
更好的是scrapy.org
-
正如@philip-southam 所说,使用Scrapy 非常适合抓取网页,所以现阶段应该没问题。但是,在登录表单中可能存在一些反机器人机制(例如:CAPTCHA),这对您让机器人执行“登录并获取一些文件”之类的事情来说是个问题。