【发布时间】:2019-01-23 21:34:43
【问题描述】:
我正在尝试使用 Python 在https://aws.amazon.com/ec2/spot/instance-advisor/ 中的表中通过按需和中断频率来节省信息。
通过在我的网络浏览器(我使用的是 Chrome)上单击“检查”并查看源代码,我发现表中的所有数据都存储在
和 标记之间。但是,在我的代码中,当我这样做时
import requests
from bs4 import BeautifulSoup
source = requests.get('https://aws.amazon.com/ec2/spot/instance-advisor/')
soup = BeautifulSoup(source.text, 'lxml')
print(soup.prettify())
我看到
和之间什么都没有。造成这种差异的原因是什么?如何在 Python 中下载网页的全部内容?
任何帮助将不胜感激! :)
【问题讨论】:
-
您不是在查看源代码,而是在查看 DOM。如果要查看源,请右键单击并选择查看页面源(而不是检查)。 DOM 由 Beautiful Soup 不运行的 JavaScript 构建。
标签: python html python-3.x web-scraping