网站阻止 Selenium 访问内容答案

【问题标题】：Website Blocking Selenium from access content网站阻止 Selenium 访问内容
【发布时间】：2021-02-01 16:19:00
【问题描述】：

晚安。我正在尝试访问https://www.continente.pt/，但我得到的只是一个顶部有黑条的空白页面。我已经在使用这些选项了：

url = 'https://www.continente.pt/'
options = webdriver.ChromeOptions()
options.add_argument("start-maximized")
options.add_argument("disable-infobars")
options.add_argument("--disable-extensions")
driver = webdriver.Chrome(chrome_options=options, executable_path=r'D:\doc\Fiverr\newMercado\chromedriver.exe')
driver.get(url)

不起作用，我仍然无法加载内容。

【问题讨论】：

也许可以试试 Tor 浏览器。
试试这个：stackoverflow.com/questions/25018286/…enter link description here
谢谢你，韦斯利·拉莫斯。可悲的是不起作用。我站着不动。
也试过 Tor，也不行。

标签： python selenium web-scraping selenium-chromedriver

【解决方案1】：

网站对蜘蛛有不同的规则，主要通过域的 robots.txt 文件进行总结。看穿https://www.continente.pt/robots.txt，输出如下：

User-agent: *
Disallow: */private
Disallow: */search

这可能表明网站所有者不希望任何人对他们进行刮擦。根据您的脚本和网站，它们也可能会阻止对蜘蛛的访问。您还可以使用其他网络驱动程序进行检查，也许是 Firefox。

您还可以检查您的 IP 地址是否被阻止。如果是这种情况，请尝试重置您的路由器（如果它具有动态 IP 地址），或者找到一个轮换 IP 提供商以与您的脚本一起使用。

【讨论】：

嗨，非常感谢。已经尝试使用Firefox，更改我的IP等。不幸的是，没有任何效果
直接去你必须去的确切网址怎么样？似乎该网站正在重定向到另一个页面？ continente.pt/pt-pt/public/Pages/homepage.aspx
您能否将 HTML 响应或检索到的页面源发送给我们？因为我们看到的只是图像。它可能会让我们对您的问题有另一种见解。
这里，贾齐尔。提前谢谢ghostbin.com/paste/RZ2Uk
从外观上看，它正在尝试加载 JS 脚本。您是否检查过 Javascript 是否正常工作？还要在检查元素期间检查网络选项卡，因为您实际上是在最大化视图中检查页面。一旦您发现问题所在，请在此处更新我们。

【解决方案2】：

好吧，我通过卸载所有基于 chrome 的浏览器和所有组件找到了答案。然后我安装了 Opera（带有 86 Chrome）并下载了 ChromeDriver 86。在那之后，我获得了访问权限并且没有被阻止（已经尝试访问该站点+10次并且仍然可以毫无问题地连接）。

我没有添加任何新代码，只是：

from selenium import webdriver


url = "https://www.website.com"

driver = webdriver.Chrome()


driver.get(url)

【讨论】：