【发布时间】:2016-09-09 05:46:49
【问题描述】:
我正在从网站上抓取餐厅列表(经许可),但我遇到了问题。从网站上抓取的 html python 与源代码中的 html 不同。他们网站上不到一半的餐厅是在 python 中的 html 中找到的。这是我的代码的样子:
import requests
from bs4 import BeautifulSoup
from tempfile import TemporaryFile
import xlwt
url = 'https://www.example.com'
r = requests.get(url)
data = BeautifulSoup(r.text)
soup = data.find_all('span',{'class':'restaurant_name'})
print soup
现在我知道这很不方便,但我不能显示 html,因为公司不让我。我只是想知道你们是否普遍知道python下载的html与源代码中的html有何不同,以及我能做些什么。
提前致谢!
【问题讨论】:
-
您将此方法与其他什么方法进行比较?你在看浏览器的 DOM 检查器吗?这显示了站点的当前状态,而不是初始来源。如果网站通过 AJAX 加载数据,那么这两件事可能会有很大的不同。
-
您是否考虑过可以使用 Javascript 来动态添加餐厅?
-
是的,我正在浏览器中查看检查器!我不知道这有什么不同!如何下载网站的当前状态?
-
我不会用javascript
标签: python html web-scraping