【问题标题】:Scraping large amount of Google Scholar pages with url使用 url 抓取大量 Google Scholar 页面
【发布时间】:2017-07-19 14:15:47
【问题描述】:

我正在尝试使用 BeautifulSoup 从 Google 学者的作者那里获取所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者列表,我必须打开论文的链接才能获得完整列表。结果,我每隔几次尝试就会遇到 CAPTCHA。

有没有办法避免验证码(例如,每次请求后暂停 3 秒)?或者制作原始的 Google Scholar 个人资料页面以显示完整的作者列表?

【问题讨论】:

    标签: web-scraping beautifulsoup captcha google-scholar


    【解决方案1】:

    最近我遇到了类似的问题。通过像这样实现随机相当长的睡眠,我至少通过一个简单的解决方法简化了我的收集过程:

    import time
    import numpy as np
    
    time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds
    

    如果您有足够的时间(比如说在晚上启动您的解析器),您可以进行更大的暂停(大 3 倍以上)以确保您不会收到验证码。

    此外,您可以在对站点的请求中随机更改user-agents,这将掩盖您的更多信息。

    【讨论】:

    • 并随机更改代理。
    猜你喜欢
    • 1970-01-01
    • 2022-01-02
    • 2012-07-11
    • 1970-01-01
    • 1970-01-01
    • 2021-06-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多