硒的网络抓取问题答案

【问题标题】：Web scraping issue with selenium硒的网络抓取问题
【发布时间】：2020-08-15 05:05:35
【问题描述】：

我正在尝试从此URL 中抓取数据，但是在使用 selenium 加载 URL 时，它不会加载此 URL，而是需要登录页面，但我想要的数据是公开的。

path = "C:/Users/gyaan/Desktop/chromedriver"
driver = webdriver.Chrome(path)
driver.get('http://www.egazette.com.sg/gazetteViewDetail.aspx?ct=gg&sc=Ads&year=2020&subscriber=1&stages=3')

请解决这个问题或建议如何打开我直接传递的 URL

【问题讨论】：

您确定这是正确的链接吗？当我关注它时，我也得到了登录页面。
是的，我访问了我想要从中获取数据的区域，这是 url。它是什么问题，为什么它要求我登录，因为它是公开的

标签： python selenium web-scraping beautifulsoup

【解决方案1】：

正如其中一位用户指出的那样，该链接是一个登录页面。可能是您已经在浏览器上登录，所以您看不到登录页面。它不是公共页面。

您可以设置 Selenium 为您键入登录凭据。我会考虑这样做。

或者，如果它是“存档”页面之一，您可以将 Selenium 配置为以与您相同的方式导航到该页面。

【讨论】：

【解决方案2】：

如果您已登录，它应该可以正常工作，您不必登录。我可以看到该页面没有“记住我”复选框，但如果您在另一个浏览器窗口中打开该页面，无需登录即可使用。

PS 你把beautifulsoup 放在标签中，但使用的是硒。

【讨论】：