【问题标题】:Stuck in loop webscraping with selenium用硒陷入循环网络抓取
【发布时间】:2022-11-09 03:49:13
【问题描述】:

我正在尝试使用 python 和 selenium 抓取leboncoin

当我注意到他们使用 DataDome 进行机器人检测时,我才刚开始,所以我必须通过验证码,但在尝试自动化任何这些之前(这个问题与此无关)我只是在铬浏览器上手动解决了验证码硒打开了,但它不起作用,每当我解决它时,它就会返回验证码,我无法访问该站点,它陷入了循环。

这是我的代码:

import time
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager

options = webdriver.ChromeOptions()
# options.add_argument("--headless")
options.add_argument("--log-level=3")
driver = webdriver.Chrome(executable_path='chromedriver', options=options)

url = "https://www.leboncoin.fr/voitures/2182521551.htm"
driver.get("https://www.leboncoin.fr")
driver.get(url)

time.sleep(100)

【问题讨论】:

    标签: python selenium selenium-webdriver web-scraping


    【解决方案1】:

    你的代码很好。

    问题是这类防火墙大多能很好地抵御自动化浏览器,如 Playwright、Selenium 等。(最后,这是他们应该做的,防止机器人访问该站点)

    您可以调整您的 Selenium 浏览器配置,使其模仿实际的 chrome 配置并诱使 DataDome 认为您是真正的用户。

    此外,您可以查看发送到防火墙的有效负载(在这种情况下发送到 ~/datadome.js )包含什么并尝试复制它们。 (通过尝试对构造和发送有效负载的 JavaScript 进行逆向工程。)

    请记住,他们还可以通过查看您的 TLS 配置(例如密码套件)或只是您的 IP 地址等其他内容来创建您的指纹。一般来说,如果一家公司使用这样的防火墙,这意味着他们不希望你抓取他们的网站,所以在这种情况下避免这样做。

    【讨论】:

      【解决方案2】:

      leboncoin.fr 确实是真的很难收集,考虑到由法国专业数据缓解公司部署的强大的bot-mitigationhttps://datadome.co/

      具有 IP 限制、多个验证码、JS 挑战。

      虽然,你可以使用现成的爬虫来自lobstr.io 可在此处访问: https://lobstr.io/store/33db1ca85160105eeb84d5aa51cfad10/leboncoin-iter-listings

      希望易于使用的 API 访问:

      https://lobstrio.docs.apiary.io/

      curl 'https://api.lobstr.io/v1/clusters/save' 
        -H 'Accept: application/json' 
        -H 'Authorization: Token $TOKEN' 
        --data-raw '{"crawler":"33db1ca85160105eeb84d5aa51cfad10","name":"Leboncoin Listings Search Export"}' 
        --compressed
      

      :crab:

      【讨论】:

        猜你喜欢
        • 2021-04-13
        • 1970-01-01
        • 1970-01-01
        • 2020-02-07
        • 1970-01-01
        • 1970-01-01
        • 2020-06-24
        • 2023-02-02
        • 2016-02-19
        相关资源
        最近更新 更多