【发布时间】:2021-01-26 13:02:04
【问题描述】:
我正在尝试使用 Python 和 BeautifulSoup4 获取网页中图像的网址
我当前的代码是
import requests
from bs4 import BeautifulSoup
url="https://goibibo.com/hotels/hotels-in-shimla-ct/"
#Headers
headers={
'User-Agent':"Mozilla/5.0 (x11; Linux x86_64) AppleWebkit/537.36 (KHTML, like Gecko Chrome 77.0.3865.90 Safari/537.36)"
}
data = requests.get(url,headers=headers).text
soup = BeautifulSoup(data, 'html.parser')
images = soup.find_all('img',src=True)
print('Number of Images: ', len(images))
print('\n')
for image in images:
if(image.has_attr('src')):
print(image['src'])
当我检查图像元素时,它有一个正确的 URL (src="https://cdn1.goibibo.com/voy_ing/t_g/812aa1726b8211e7a0a10a4cef95d023.jpg")。但是,当我使用 BeautifulSoup4 获取 img 元素的 src 值时,它会返回 data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAAAAAAEAAAIBRAA7
如何获取网页中给出的图片url?
【问题讨论】:
-
您能提供您尝试抓取的网站的实际网址吗?
-
@Sushil tryna 是什么?
-
Tryna 的意思是尝试...我懒得把它完全输入 XD。但是,是的,我同意你的观点@baduker。没有实际的url,我们无法解决此类问题。
-
用实际的 URL 更新我的问题....
标签: python beautifulsoup