【问题标题】:Missing HTML Elements when scraping website. Python抓取网站时缺少 HTML 元素。 Python
【发布时间】:2023-04-01 00:21:02
【问题描述】:

我正在尝试使用 bs4 和 Selenium 从网站中提取 HREF。但是,当我使用 Beautiful Soup 解析 HTML 时,我正在寻找的元素会丢失。当我稍后尝试搜索它们时,我只会得到 NoneType 对象。 以下是我想删除的内容:

我正在使用以下代码快速解析:

my_url = browser.current_url
uClient = uReq(my_url) 
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")

但是当我跑步时:

squeeps = page_soup.findAll("div",{'id':'pcisBody'})
squeeps[0]

这就是我得到的全部:

<div id="pcisBody">
<img alt="loading" height="40" src="/OnlineServices/Images/loading.gif" width="40"/>
<span id="pcisLoading">Retrieving Data...</span>
</div>

任何帮助将不胜感激!!这是链接:https://www.ladbsservices2.lacity.org/OnlineServices/PermitReport/PermitResults/444952

【问题讨论】:

标签: python html selenium web-scraping beautifulsoup


【解决方案1】:

BeautifulSoup 在初始加载后不会捕获网站的数据。作为一种解决方法,您可以使用 selenium 并访问该网站。然后,等到特定分钟​​或特定加载事件被触发,然后获取页面源。然后,将其传递给 BeautifulSoup。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-07-17
    • 1970-01-01
    • 2021-03-20
    • 2021-03-07
    • 1970-01-01
    • 1970-01-01
    • 2019-12-10
    相关资源
    最近更新 更多