【发布时间】:2013-05-02 14:57:36
【问题描述】:
我打算用 Python 编写一个网站爬虫,使用 Requests 和 PyQuery。
但是,我所定位的网站要求我登录自己的帐户。使用请求,我是否可以与服务器建立会话(使用我的站点凭据),并使用此会话来抓取我只有在登录时才能访问的站点?
我希望这个问题很清楚,谢谢。
【问题讨论】:
-
当然可以。
requests本身有很多方法可以做到这一点,如果不支持,您也可以编写自己的身份验证方法。见docs.python-requests.org/en/latest/user/authentication -
绝对有可能,但只要准备好让网站将您踢出并可能会在他们抓住您时删除您的帐户。根据服务条款和您正在翻录的信息的价值,该网站可能对此不太满意。该网站可能会记录用户活动,并且很容易发现爬虫(尽管实际上很少有网站在寻找它)
标签: python web-crawler python-requests httpsession