美丽的汤没有加载整个页面答案

【问题标题】：Beautiful Soup not loading the entire page美丽的汤没有加载整个页面
【发布时间】：2018-07-06 15:37:55
【问题描述】：

我有一个网络爬虫脚本

import requests
from lxml import html
import bs4
res = requests.get('https://in.linkedin.com/in/ASAMPLEUSERNAME', headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'})

print(res.text)

请将代码中 url 中的 'ASAMPLEUSERNAME' 替换为一些虚拟的linkedin用户

但代码只给了我部分不完整（几乎没有）网页源

【问题讨论】：

HTML does not reflect webpage content in browser for Beautiful Soup的可能重复
页面内容可能是由客户端JavaScript生成的，这也是requests库无法访问的原因。之前在SO上已经回答过这个问题，解决方法通常是使用Selenium获取页面，等待JS加载，然后从中剥离页面源。

标签： python beautifulsoup web-crawler

【解决方案1】：

正如 BenG 所说，内容是动态的。您可以通过查看源代码来了解这一点。那里的很多 html 都包含“脚本”。您可以使用其他库（例如 selenium）来加载动态元素。

编辑：这是理论上使用 selenium 获取页面源代码的方式。在实践中，这似乎有点困难。我被重定向到Linkedin的登录名。但是你可以扩展代码来登录，然后获取页面的源代码。如果您需要帮助，请告诉我。请注意，要使此代码正常工作，您需要安装 chrome，并且 chromedriver 位于显示 yourdriver 的路径中。

from selenium import webdriver
driver = webdriver.Chrome(executable_path=yourdriver)
url ='https://in.linkedin.com/in/SOMEUSER'
driver.get(url)
html = driver.page_source

【讨论】：

【解决方案2】：

其他答案建议使用 Selenium，它适用于大多数网络抓取业务。

但是，如果您担心速度，请转到 javascript 源代码并查找您感兴趣的实际内容的来源，可能是通过 ajax 请求。也许您可以直接访问 API 端点。

【讨论】：

【解决方案3】：

据我所知，您不使用 BeautifulSoup。我猜你需要这样的东西：

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome(driverPath)
driver.get(url)
page = driver.execute_script('return document.body.innerHTML')
soup = BeautifulSoup(''.join(page), 'html.parser')

【讨论】：

return document.body.innerHTML 代表什么？