【发布时间】:2021-09-07 18:34:58
【问题描述】:
我想使用 Selenium webdriver 从this site 下载图片
每天都会创建一个新页面,在这个新页面上,图像将在下午 6 点左右上传到它。
url = 'http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021'
driver.get(url)
images = driver.find_elements_by_tag_name('img')
for image in images:
print(image.get_attribute('src'))
当我运行代码时,即使在常规浏览器中看不到图像(下午 6 点之前),使用 selenium 我仍然可以获得这些图像 url 的列表,
# sample output from code
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/ukk-KlusterBaruHarian9.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/ukk-KlusterBaruHarian10.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/statskluster01.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/statskluster02.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/statskluster03.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/taburankes-all.jpg
我什至可以在 img url 上使用 wget 来下载,但结果是一个空的/损坏的 img
谁能向我解释这些行为(我没有网络开发知识)以及如何绕过它?我只想在图像真的存在时才下载它。
【问题讨论】:
-
尝试使用像用户代理这样的标题调用页面
-
页面动态加载,图片经常被站长公司删除
标签: python html selenium selenium-webdriver