【问题标题】:Scrapy: ValueError('Missing scheme in request url: %s' % self._url)Scrapy: ValueError('请求 url 中缺少方案: %s' % self._url)
【发布时间】:2017-02-03 14:13:26
【问题描述】:

我正在尝试从网页中抓取数据。该网页只是一个包含 2500 个 URL 的项目符号列表。 Scrapy fetch 并转到每个 URL 并获取一些数据......

这是我的代码

class MySpider(CrawlSpider):
    name = 'dknews'
    start_urls = ['http://www.example.org/uat-area/scrapy/all-news-listing']
    allowed_domains = ['example.org']

    def parse(self, response):
        hxs = Selector(response)
        soup = BeautifulSoup(response.body, 'lxml')
        nf = NewsFields()
        ptype = soup.find_all(attrs={"name":"dkpagetype"})
        ptitle = soup.find_all(attrs={"name":"dkpagetitle"})
        pturl = soup.find_all(attrs={"name":"dkpageurl"})
        ptdate = soup.find_all(attrs={"name":"dkpagedate"})
        ptdesc = soup.find_all(attrs={"name":"dkpagedescription"})
         for node in soup.find_all("div", class_="module_content-panel-sidebar-content"):
           ptbody = ''.join(node.find_all(text=True))  
           ptbody = ' '.join(ptbody.split())
           nf['pagetype'] = ptype[0]['content'].encode('ascii', 'ignore')
           nf['pagetitle'] = ptitle[0]['content'].encode('ascii', 'ignore')
           nf['pageurl'] = pturl[0]['content'].encode('ascii', 'ignore')
           nf['pagedate'] = ptdate[0]['content'].encode('ascii', 'ignore')
           nf['pagedescription'] = ptdesc[0]['content'].encode('ascii', 'ignore')
           nf['bodytext'] = ptbody.encode('ascii', 'ignore')
         yield nf
            for url in hxs.xpath('//ul[@class="scrapy"]/li/a/@href').extract():
             yield Request(url, callback=self.parse)

现在的问题是,上面的代码从 2500 篇文章中抓取了大约 215 篇。它通过给出此错误关闭...

ValueError('请求 url 中缺少方案:%s' % self._url)

我不知道是什么导致了这个错误......

非常感谢任何帮助。

谢谢

【问题讨论】:

    标签: python scrapy


    【解决方案1】:

    2019 年 1 月更新

    Nowdays Scrapy 的 Response 实例有一个非常方便的方法 response.follow,它使用 response.url 作为基础,从给定的 URL(绝对或相对,甚至是由LinkExtractor 生成的 Link 对象)生成请求:

    yield response.follow('some/url', callback=self.parse_some_url, headers=headers, ...)
    

    文档:http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Response.follow


    下面的代码看起来像问题:

     for url in hxs.xpath('//ul[@class="scrapy"]/li/a/@href').extract():
         yield Request(url, callback=self.parse)
    

    如果任何 url 不是完全限定的,例如看起来像 href="/path/to/page" 而不是 href="http://example.com/path/to/page" 你会得到错误。为确保您产生正确的请求,您可以使用urljoin:

        yield Request(response.urljoin(url), callback=self.parse)
    

    Scrapy 方法是使用LinkExtractor 虽然https://doc.scrapy.org/en/latest/topics/link-extractors.html

    【讨论】:

      猜你喜欢
      • 2020-12-09
      • 1970-01-01
      • 2017-07-02
      • 1970-01-01
      • 1970-01-01
      • 2015-02-15
      • 1970-01-01
      • 2016-04-30
      • 1970-01-01
      相关资源
      最近更新 更多