【问题标题】:how to find the authentication used on a website如何查找网站上使用的身份验证
【发布时间】:2012-03-02 05:23:08
【问题描述】:

我一直在阅读有关 beautifulSoup、http 标头、身份验证、cookie 和有关机械化的内容。

我正在尝试用 python 抓取我最喜欢的艺术网站。就像我找到了一个刮板的越轨艺术。现在我正在尝试登录,但我尝试的基本身份验证代码示例不起作用。

那么问题来了,我如何找出网站使用的身份验证类型,以便我知道我正在尝试以正确的方式登录?当他们试图阻止机器人时,包括有效的用户代理之类的东西。

忍受我的无知,因为我是 HTTP、python 和抓取的新手。

【问题讨论】:

    标签: python http authentication screen-scraping web-scraping


    【解决方案1】:

    您感兴趣的任何网站都不太可能使用基本身份验证。您将需要一个像 mechanize 这样管理 cookie 的库,并且您需要将登录信息提交到站点的登录页面。

    【讨论】:

    • 谢谢 我开始相信我不会得到任何帮助。我读过一些关于机械化的书,但它的描述让我感到困惑,所以我什至没有理会它。是否有关于如何使用 Python 版本的 Mechanize 的教程?
    • 我推荐scraperwiki.com,他们有教程,还有其他人的python+mechanize scrapers 供你看。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多