【问题标题】:Web scraping issue with selenium硒的网络抓取问题
【发布时间】:2020-08-15 05:05:35
【问题描述】:

我正在尝试从此URL 中抓取数据,但是在使用 selenium 加载 URL 时,它不会加载此 URL,而是需要登录页面,但我想要的数据是公开的。

path = "C:/Users/gyaan/Desktop/chromedriver"
driver = webdriver.Chrome(path)
driver.get('http://www.egazette.com.sg/gazetteViewDetail.aspx?ct=gg&sc=Ads&year=2020&subscriber=1&stages=3')

请解决这个问题或建议如何打开我直接传递的 URL

【问题讨论】:

  • 您确定这是正确的链接吗?当我关注它时,我也得到了登录页面。
  • 是的,我访问了我想要从中获取数据的区域,这是 url。它是什么问题,为什么它要求我登录,因为它是公开的

标签: python selenium web-scraping beautifulsoup


【解决方案1】:

正如其中一位用户指出的那样,该链接是一个登录页面。可能是您已经在浏览器上登录,所以您看不到登录页面。它不是公共页面。

您可以设置 Selenium 为您键入登录凭据。我会考虑这样做。

或者,如果它是“存档”页面之一,您可以将 Selenium 配置为以与您相同的方式导航到该页面。

【讨论】:

    【解决方案2】:

    如果您已登录,它应该可以正常工作,您不必登录。我可以看到该页面没有“记住我”复选框,但如果您在另一个浏览器窗口中打开该页面,无需登录即可使用。

    PS 你把beautifulsoup 放在标签中,但使用的是硒。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-11-09
      • 1970-01-01
      • 2021-10-28
      • 2023-02-02
      • 1970-01-01
      相关资源
      最近更新 更多