由于直接通过requests.get()方法去爬取网页,它的头部信息的user-agent显示的是python-requests/2.21.0,所以亚马逊网站可能会拒绝访问。所以我们要更改访问的头部信息以对网站进行访问,更改头部信息模拟浏览器访问。

#亚马逊商品页面的爬取
import requests
url="https://www.amazon.cn/dp/B07GVXHCXH"
try:
    kv={'user-agent':'Mozilla/5.0'}
    r=requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")

 

相关文章:

  • 2021-12-11
  • 2022-12-23
  • 2022-01-09
  • 2021-11-30
  • 2021-11-30
  • 2022-12-23
  • 2021-08-07
  • 2021-11-19
猜你喜欢
  • 2021-11-22
  • 2022-01-03
  • 2021-11-04
  • 2022-12-23
  • 2022-12-23
  • 2021-07-13
  • 2022-02-09
相关资源
相似解决方案