【发布时间】:2019-07-24 20:55:13
【问题描述】:
我想刮掉这个Link中的所有图片链接,我正在使用requests+Beautiful soup-python 3.7。 我的问题是结果是 3,而页面上有 6 张图片。
import requests
from bs4 import BeautifulSoup as bs
url='https://ahara.kar.nic.in/FCS_report/ViewRC/dup_rc_view.aspx'
var='240100160336'
payload={'rc_no':var}
headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3','Cookie':'ASP.NET_SessionId=v4kd535hn3d43z0x4ttgzqit','User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
res=requests.get(url,headers=headers,data=payload)
obj=bs(res.text,'html.parser')
#obj=obj.find('table')
imgs=obj.find_all('img')
print(len(imgs))
编辑:服务器正在使用 cookie 给我想要的图片和完整的 html 页面,所以在添加 cookie 处理并在我的代码中添加正确的 url 后,它可以按需要工作!
【问题讨论】:
-
你的意思是“刮”?因为“废品”意味着你想摆脱它们。
-
抱歉我不知道
标签: python web-scraping