【发布时间】:2021-03-31 04:48:32
【问题描述】:
我正在尝试从 Spotify 网站获取 HTML 正文。但是在我将它输出到文件后,由于某种原因,结果与原始 HTML 不同(这是一个完全不同的站点)。
curl https://open.spotify.com/artist/4npEfmQ6YuiwW1GpUmaq3F > test.html
最后,我会在 python 中做,所以如果有人知道如何绕过这个页面重定向,请帮助。
【问题讨论】:
我正在尝试从 Spotify 网站获取 HTML 正文。但是在我将它输出到文件后,由于某种原因,结果与原始 HTML 不同(这是一个完全不同的站点)。
curl https://open.spotify.com/artist/4npEfmQ6YuiwW1GpUmaq3F > test.html
最后,我会在 python 中做,所以如果有人知道如何绕过这个页面重定向,请帮助。
【问题讨论】:
Spotify 识别出您使用了不受支持的“浏览器”, Curl 不是浏览器,所以不要认为它会像浏览器一样 您需要通过添加正确的标题来“假装”您使用真实的浏览器, 类似:
curl 'https://open.spotify.com/artist/4npEfmQ6YuiwW1GpUmaq3F' \
-X 'GET' \
-H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' \
-H 'User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.2 Safari/605.1.15'
【讨论】:
首先你需要在cmd中使用“pip install requests”安装请求
接下来你可以使用它(如果需要,你也可以添加带有用户代理的标题)。
import requests
url="google.com" #for example
headers={"User-Agent":"Apple Web Kit"}#adding user agent
html=requests.get(url,headers=headers).content.decode()
【讨论】: