【问题标题】:Website Blocking Selenium from access content网站阻止 Selenium 访问内容
【发布时间】:2021-02-01 16:19:00
【问题描述】:

晚安。 我正在尝试访问https://www.continente.pt/,但我得到的只是一个顶部有黑条的空白页面。 我已经在使用这些选项了:

url = 'https://www.continente.pt/'
options = webdriver.ChromeOptions()
options.add_argument("start-maximized")
options.add_argument("disable-infobars")
options.add_argument("--disable-extensions")
driver = webdriver.Chrome(chrome_options=options, executable_path=r'D:\doc\Fiverr\newMercado\chromedriver.exe')
driver.get(url)

不起作用,我仍然无法加载内容。

【问题讨论】:

标签: python selenium web-scraping selenium-chromedriver


【解决方案1】:

网站对蜘蛛有不同的规则,主要通过域的 robots.txt 文件进行总结。看穿https://www.continente.pt/robots.txt,输出如下:

User-agent: *
Disallow: */private
Disallow: */search

这可能表明网站所有者不希望任何人对他们进行刮擦。根据您的脚本和网站,它们也可能会阻止对蜘蛛的访问。您还可以使用其他网络驱动程序进行检查,也许是 Firefox。

您还可以检查您的 IP 地址是否被阻止。如果是这种情况,请尝试重置您的路由器(如果它具有动态 IP 地址),或者找到一个轮换 IP 提供商以与您的脚本一起使用。

【讨论】:

  • 嗨,非常感谢。已经尝试使用Firefox,更改我的IP等。不幸的是,没有任何效果
  • 直接去你必须去的确切网址怎么样?似乎该网站正在重定向到另一个页面? continente.pt/pt-pt/public/Pages/homepage.aspx
  • 您能否将 HTML 响应或检索到的页面源发送给我们?因为我们看到的只是图像。它可能会让我们对您的问题有另一种见解。
  • 这里,贾齐尔。提前谢谢ghostbin.com/paste/RZ2Uk
  • 从外观上看,它正在尝试加载 JS 脚本。您是否检查过 Javascript 是否正常工作?还要在检查元素期间检查网络选项卡,因为您实际上是在最大化视图中检查页面。一旦您发现问题所在,请在此处更新我们。
【解决方案2】:

好吧,我通过卸载所有基于 chrome 的浏览器和所有组件找到了答案。 然后我安装了 Opera(带有 86 Chrome)并下载了 ChromeDriver 86。 在那之后,我获得了访问权限并且没有被阻止(已经尝试访问该站点+10次并且仍然可以毫无问题地连接)。

我没有添加任何新代码,只是:

from selenium import webdriver


url = "https://www.website.com"

driver = webdriver.Chrome()


driver.get(url)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-07-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-12
    相关资源
    最近更新 更多