【发布时间】:2025-12-22 07:00:07
【问题描述】:
我尝试从多个 URL 下载 pdf 文件。使用此代码:
import requests
for i in range(1, 40000):
r = requests.get('http://www.setpp.kemenkeu.go.id/risalah/ambilFileDariDisk/'+str(i), allow_redirects=True, timeout=10)
open('file-risalah'+str(i)+'.pdf', 'wb').write(r.content)
但显然,在那 40000 页中找不到很多页面,所以我得到了很多损坏的 pdf。如何跳过从找不到的页面下载? 我试过用这个:
import requests
import urllib
try:
for i in range(2847, 40000):
r = requests.get('http://www.setpp.kemenkeu.go.id/risalah/ambilFileDariDisk/'+str(i), allow_redirects=True, timeout=10)
open('file-risalah'+str(i)+'.pdf', 'wb').write(r.content)
except urllib.error.HTTPError:
print ("pdf not found")
但看起来,它仍然从找不到的页面下载
【问题讨论】:
标签: python url web-scraping request