使用 Scrapy 和 Python 2.7 抓取网页答案

【问题标题】：Crawl A Web Page with Scrapy and Python 2.7使用 Scrapy 和 Python 2.7 抓取网页
【发布时间】：2018-07-24 04:54:45
【问题描述】：

链接：http://content.time.com/time/covers/0,16641,19230303,00.html [新 DOM 链接]

封面页HTML标签

如何在 Jason 和下载图像中获取 SCR

下一个按钮标签

我想使用 Scrapy

废弃这 2 个链接

任何帮助!!

我需要编写一个方法来下载图像并单击下一页，在 for 循环中运行它们直到最终图像获得下载（最后一页）。如何下载剩下的部分，我想明白了。

我按照这个教程https://www.pyimagesearch.com/2015/10/12/scraping-images-with-python-and-scrapy/

[DOM 已经过时]

我已经为项目设置了所有文件和管道

为了记录，我尝试了不同的XPath css响应方法

【问题讨论】：

标签： image python-2.7 download scrapy scrapy-spider

【解决方案1】：

https://github.com/Dhawal1306/Scrapy

Everything is done 解决方案在 Github 4700 上我们拥有的图像以及 JSON 上。

对于教程，您只需提出任何问题！

【讨论】：

【解决方案2】：

我知道这并不难，但我发现使用 BS4 更容易。所以你必须“pip install beautifulsoup4”。这是一个示例：

import requests
from bs4 import BeautifulSoup
import os

r = requests.get("https://mouradcloud.westeurope.cloudapp.azure.com/blog/blog/category/food/")
data = r.text
soup = BeautifulSoup(data, "lxml")

for link in soup.find_all('img'):
        image_url = link.get("src")
        print(image_url)

效果很好

【讨论】：