Python - 从 html 文件中获取所有图像

【问题标题】：Python - Getting all images from an html filePython - 从 html 文件中获取所有图像
【发布时间】：2011-05-16 18:13:37
【问题描述】：

有人可以帮我解析一个html文件以获取python文件中所有图像的链接吗？

最好没有第 3 方模块...

谢谢！

【问题讨论】：

标签： python image urllib

【解决方案1】：

您可以使用Beautiful Soup。我知道你说没有第 3 方模块。但是，这是解析 HTML 的理想工具。

import urllib2
from BeautifulSoup import BeautifulSoup
page = BeautifulSoup(urllib2.urlopen("http://www.url.com"))
page.findAll('img')

【讨论】：

好的。似乎这会帮助它很多，所以我会检查一下。谢谢！
我认为罗素错过了BeautifulSoup(page)

【解决方案2】：

仅使用 PSL

from html.parser import HTMLParser
class MyParse(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag=="img":
            print(dict(attrs)["src"])

h=MyParse()
page=open("index.html").read()
h.feed(page)

【讨论】：

您可以使用 urllib 来增加它以打开网页并下载图像。
对我来说，这只适用于“从 HTMLParser 导入 HTMLParser”

【解决方案3】：

普遍认为 lxml 比 Beautiful Soup (ref) 更快。它的教程可以在这里找到：(link) 你也可以看看this old stackoverflow post。

【讨论】：