【问题标题】:Scrapy Crawls only 1st pageScrapy 仅抓取第一页
【发布时间】:2013-07-14 14:58:22
【问题描述】:

嘿,我正在使用 scrapy 制作一个项目,其中我需要从业务目录中删除业务详细信息 http://directory.thesun.co.uk/find/uk/computer-repair
我面临的问题是:当我尝试抓取页面时,我的爬虫仅获取第一页的详细信息,而我还需要获取其余 9 页的详细信息;那是所有10页.. 我在我的蜘蛛代码和 items.py 和设置 .py 下面显示 请查看我的代码并帮助我解决它

蜘蛛代码::

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from project2.items import Project2Item

class ProjectSpider(BaseSpider):
    name = "project2spider"
    allowed_domains = ["http://directory.thesun.co.uk/"]
    start_urls = [
        "http://directory.thesun.co.uk/find/uk/computer-repair"
    ]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//div[@class="abTbl "]')
        items = []
        for site in sites:
            item = Project2Item()
            item['Catogory'] = site.select('span[@class="icListBusType"]/text()').extract()
            item['Bussiness_name'] = site.select('a/@title').extract()
            item['Description'] = site.select('span[last()]/text()').extract()
            item['Number'] = site.select('span[@class="searchInfoLabel"]/span/@id').extract()
            item['Web_url'] = site.select('span[@class="searchInfoLabel"]/a/@href').extract()
            item['adress_name'] = site.select('span[@class="searchInfoLabel"]/span/text()').extract()
            item['Photo_name'] = site.select('img/@alt').extract()
            item['Photo_path'] = site.select('img/@src').extract()
            items.append(item)
        return items

我的 items.py 代码如下::

from scrapy.item import Item, Field

class Project2Item(Item):
    Catogory = Field()
    Bussiness_name = Field()
    Description = Field()
    Number = Field()
    Web_url = Field()
    adress_name = Field()
    Photo_name = Field()
    Photo_path = Field()

我的 settings.py 是:::

BOT_NAME = 'project2'

SPIDER_MODULES = ['project2.spiders']
NEWSPIDER_MODULE = 'project2.spiders'

请帮忙 我也从其他页面提取详细信息...

【问题讨论】:

    标签: python django scrapy


    【解决方案1】:

    获取描述 .select('span/text()') 您正在从 //div[@class="abTbl "] 的所有跨度中选择文本。 要提取最后一个跨度,您可以使用'span[last()]/text()' xpath

    顺便说一句,http://www.w3schools.com/xpath/xpath_syntax.asp 应该可以帮助您使用 XPathes

    【讨论】:

      猜你喜欢
      • 2023-01-24
      • 2023-03-30
      • 1970-01-01
      • 2015-12-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-11-30
      • 1970-01-01
      相关资源
      最近更新 更多