【发布时间】:2017-06-12 09:08:38
【问题描述】:
我在从 http://csgo-stats.com/epsilon-/ 网址抓取信息时遇到问题,但由于网站处理事情的方式,BeautifulSoup 仅从根页面收集数据,即 http://csgo-stats.com强>
是否有重定向会绊倒 BS?我可以在 html 中看到 BS 输出它正在尝试加载我的数据,但 BS 捕获它的速度太快了:
<main class="site-content" id="content">
<div class="loading-spinner" data-request="epsilon-" id="load">
Loading
</div>
这是我正在使用的代码,以备不时之需:
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = "http://csgo-stats.com/Epsilon-/"
soup = BeautifulSoup(urlopen(url))
print(soup.prettify())
【问题讨论】:
-
试试这个模拟浏览器并且应该完美执行javascript的:phantomjs.org
-
请注意,在您收到答复后,无需在您的问题中编辑感谢。如果您发现了现有答案未涵盖的实质性内容,欢迎您创建自己的新答案。
标签: python web web-scraping beautifulsoup urllib