【发布时间】:2013-08-26 19:52:54
【问题描述】:
我正在尝试从 url 中提取和下载所有图像。 我写了一个脚本
import urllib2
import re
from os.path import basename
from urlparse import urlsplit
url = "http://filmygyan.in/katrina-kaifs-top-10-cutest-pics-gallery/"
urlContent = urllib2.urlopen(url).read()
# HTML image tag: <img src="url" alt="some_text"/>
imgUrls = re.findall('img .*?src="(.*?)"', urlContent)
# download all images
for imgUrl in imgUrls:
try:
imgData = urllib2.urlopen(imgUrl).read()
fileName = basename(urlsplit(imgUrl)[2])
output = open(fileName,'wb')
output.write(imgData)
output.close()
except:
pass
我不想提取此页面的图像查看此图像http://i.share.pho.to/1c9884b1_l.jpeg 我只想获取所有图像而不单击“下一步”按钮 我没有得到如何获得“下一个”类中的所有图片。我应该在 findall 中做哪些更改?
【问题讨论】:
-
您想使用 BeautifulSoup 但不确定如何进行?
-
是的。我不确定我应该如何使用 findall 或 findnext?上面的脚本将抓取该网址的所有图像,但我想要(参见图像链接)抓取单击下一步按钮后出现的该幻灯片的所有图像。
-
告诉我一件事你为什么要从filmygyan下载图片?那么,我可以给你解决你的问题..!
-
使用wget
-
@khan 没什么特别的。我只是在学习。
标签: python beautifulsoup