【问题标题】:Scrape Entire Website for Image URL's Only只为图像 URL 抓取整个网站
【发布时间】:2017-03-28 13:54:04
【问题描述】:

一位客户聘请我收集网站上的图片列表。数据库是一个巨大的混乱,图像存储在所有地方(一些在 S3 中,一些在本地服务器上)。我需要生成一个图像列表,我们将从 S3 迁移到我们将网站迁移到的新托管公司。

我尝试使用 REGEXP 抓取数据库转储,但我想出的图像列表与站点实际使用的不匹配。

我想要做什么:释放一个 python 脚本来抓取整个网站的所有图片 URL。网站是WordPress的,会不会有很多.jpg?8127之类的。我不在乎那些,我可以稍后清理输出。

所以,我的目标是:

-编写跟随网站上每个链接的python脚本,解析图像链接的输出。 - 将结果转储到文本文件中以进行清理和审查

我正在考虑使用https://pypi.python.org/pypi/ImageScraper 作为其中的一部分,因为它似乎最有意义。

我该怎么做才能最好?

【问题讨论】:

  • Scrapy 是另一个需要考虑的选项。

标签: python web-scraping


【解决方案1】:

我认为您需要检查scrapy 项目。使用scrapy,您可以编写爬虫并使用管道保存images o url 的图像。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-12-28
    • 1970-01-01
    • 1970-01-01
    • 2011-11-28
    • 1970-01-01
    相关资源
    最近更新 更多