【发布时间】:2018-06-03 16:17:48
【问题描述】:
我正在尝试在 python 中使用 Beautifulsoup 从网站上抓取数据,当我解析页面时,我想要抓取的信息没有显示出来,而是我看到了这个:
<span class="frwp-debug hidden" style="display: none!important; visibility: hidden!important;">
解析后的 html 与我检查页面时看到的不同。
这是我的代码:
site = "http://www.fifa.com/worldcup/stories/y=2017/m=11/news=australia-2921204.html#World_Cup_History"
hdr = {'User-Agent': 'Mozilla/5.0'}
page = requests.get(site)
soup = BeautifulSoup(page.text, "html.parser")
print(soup.prettify())
如何抓取隐藏信息?
【问题讨论】:
-
BeautifulSoup正确解析 HTML - 只是页面通过 Ajax 加载其所有内容,而 BS 不处理。乍一看,我认为您需要解析来自stScript.setAttribute('data-storyid', ...);的值并构建正确的 URL 以获取该 JSON - 或者开始使用 selenium。
标签: python web-scraping beautifulsoup visibility hidden