【发布时间】:2018-07-06 15:37:55
【问题描述】:
我有一个网络爬虫脚本
import requests
from lxml import html
import bs4
res = requests.get('https://in.linkedin.com/in/ASAMPLEUSERNAME', headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'})
print(res.text)
请将代码中 url 中的 'ASAMPLEUSERNAME' 替换为一些虚拟的linkedin用户
但代码只给了我部分不完整(几乎没有)网页源
【问题讨论】:
-
页面内容可能是由客户端JavaScript生成的,这也是
requests库无法访问的原因。之前在SO上已经回答过这个问题,解决方法通常是使用Selenium获取页面,等待JS加载,然后从中剥离页面源。
标签: python beautifulsoup web-crawler