【问题标题】:Python - Getting all images from an html filePython - 从 html 文件中获取所有图像
【发布时间】:2011-05-16 18:13:37
【问题描述】:

有人可以帮我解析一个html文件以获取python文件中所有图像的链接吗?

最好没有第 3 方模块...

谢谢!

【问题讨论】:

    标签: python image urllib


    【解决方案1】:

    您可以使用Beautiful Soup。我知道你说没有第 3 方模块。但是,这是解析 HTML 的理想工具。

    import urllib2
    from BeautifulSoup import BeautifulSoup
    page = BeautifulSoup(urllib2.urlopen("http://www.url.com"))
    page.findAll('img')
    

    【讨论】:

    • 好的。似乎这会帮助它很多,所以我会检查一下。谢谢!
    • 我认为罗素错过了BeautifulSoup(page)
    【解决方案2】:

    仅使用 PSL

    from html.parser import HTMLParser
    class MyParse(HTMLParser):
        def handle_starttag(self, tag, attrs):
            if tag=="img":
                print(dict(attrs)["src"])
    
    h=MyParse()
    page=open("index.html").read()
    h.feed(page)
    

    【讨论】:

    • 您可以使用 urllib 来增加它以打开网页并下载图像。
    • 对我来说,这只适用于“从 HTMLParser 导入 HTMLParser”
    【解决方案3】:

    普遍认为 lxml 比 Beautiful Soup (ref) 更快。它的教程可以在这里找到:(link) 你也可以看看this old stackoverflow post

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-02-22
      • 2012-04-15
      • 2015-08-30
      • 1970-01-01
      • 1970-01-01
      • 2013-06-11
      • 1970-01-01
      相关资源
      最近更新 更多