【发布时间】:2020-09-03 09:54:52
【问题描述】:
所以我试图从 Steam 上的免费游戏网站获取所有 url,但它总是返回空。我不知道我在这里做错了什么,下图显示了路径
result = requests.get("https://steamdb.info/upcoming/free/")
src = result.content
soup = BeautifulSoup(src, 'lxml')
urls = []
for td_tag in soup.find_all('td'):
a_tag = td_tag.find('a')
urls.append(a_tag.attrs['href'])
print(urls)
【问题讨论】:
-
它可以检查一些标题 - 通常是“用户代理”。它可以使用 JavaScript 添加它 - requests/BeautifulSoup 无法运行 JavaScript。首先显示
result.content看看你得到了什么——也许有机器人/脚本的消息。您也可以在浏览器中关闭 JavaScript 并在浏览器中重新加载 URL 以查看可以得到什么。 -
除了美汤还有什么更好的抓取网址的方法吗?
标签: python beautifulsoup screen-scraping