【发布时间】:2014-04-15 20:59:48
【问题描述】:
我正在尝试使用 python urllib2 从网站上抓取图像 url。
这是我获取 html 字符串的代码:
req = urllib2.Request(url, headers = urllib2Header)
htmlStr = urllib2.urlopen(req, timeout=15).read()
当我从浏览器查看时,图像的 html 代码如下所示:
<img id="main-image" src="http://abcd.com/images/41Q2VRKA2QL._SY300_.jpg" alt="" rel="" style="display: inline; cursor: pointer;">
但是,当我从捕获的 htmlStr 中读取时,图像被转换为 base64 图像,如下所示:
<img id="main-image" src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAUDBAQEAwUEBAQFBQU....">
我想知道为什么会这样。有没有办法获取原始图片url而不是base64图片字符串?
谢谢。
【问题讨论】:
-
你想抓取什么网址?
标签: python html image web-scraping