Python：将 URL 的“列表”发送到 scrapy 蜘蛛进行抓取时出现问题答案

【问题标题】：Python: Problems sending 'list' of urls to scrapy spider to scrapePython：将 URL 的“列表”发送到 scrapy 蜘蛛进行抓取时出现问题
【发布时间】：2023-03-14 05:53:01
【问题描述】：

尝试通过使用长字符串将 URL 的“列表”发送到 scrapy 以通过某个蜘蛛进行爬网，然后在爬虫内拆分字符串。我尝试复制this 答案中给出的格式。

我要发送给爬虫的列表是future_urls

    >>> print future_urls
    set(['https://ca.finance.yahoo.com/q/hp?s=ALXN&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'http://finance.yahoo.com/q/hp?s=TFW.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'https://ca.finance.yahoo.com/q/hp?s=DLTR&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'https://ca.finance.yahoo.com/q/hp?s=AGNC&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'https://ca.finance.yahoo.com/q/hp?s=HMSY&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'http://finance.yahoo.com/q/hp?s=BATS.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m'])

然后通过以下方式发送给爬虫：

command4 = ("scrapy crawl future -o future_portfolios_{0} -t csv -a future_urls={1}").format(input_file, str(','.join(list(future_urls))))

>>> print command4
scrapy crawl future -o future_portfolios_input_10062008_10062012_ver_1.csv -t csv -a future_urls=https://ca.finance.yahoo.com/q/hp?s=ALXN&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,http://finance.yahoo.com/q/hp?s=TFW.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,https://ca.finance.yahoo.com/q/hp?s=DLTR&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,https://ca.finance.yahoo.com/q/hp?s=AGNC&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,https://ca.finance.yahoo.com/q/hp?s=HMSY&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,http://finance.yahoo.com/q/hp?s=BATS.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m
>>> type(command4)
<type 'str'>

我的爬虫（部分）：

class FutureSpider(scrapy.Spider):
name = "future"
allowed_domains = ["finance.yahoo.com", "ca.finance.yahoo.com"]
start_urls = ['https://ca.finance.yahoo.com/q/hp?s=%5EIXIC']

def __init__(self, *args, **kwargs):
    super(FutureSpider, self).__init__(*args,**kwargs)
    self.future_urls = kwargs.get('future_urls').split(',')
    self.rate_returns_len_min = 12
    self.required_amount_of_returns = 12
    for x in self.future_urls:
            print "Going to scrape:"
            print x

def parse(self, response):

    if self.future_urls:
        for x in self.future_urls:
            yield scrapy.Request(x, self.stocks1)

但是，从print 'going to scrape:', x 打印出来的是：

Going to scrape:
https://ca.finance.yahoo.com/q/hp?s=ALXN

只有一个url，而且只是future_urls中第一个url的一部分，这显然是有问题的。

似乎无法弄清楚为什么爬虫不会抓取future_urls中的所有网址...

【问题讨论】：

您能否在 init 中的“for x in self.future_urls:”处设置断点，if 语句应该在列表和集合上都可以正常工作。唯一的解释是future_urls只有1个元素。

标签： python scrapy

【解决方案1】：

我认为它在碰到 & 符号 (&) 时会停止，您可以使用 urllib.quote 将其转义。

例如：

import urllib

escapedurl = urllib.quote('https://ca.finance.yahoo.com/q/hp?s=ALXN&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m')

然后你就可以恢复正常了：

>>>>urllib.unquote(escapedurl)
https://ca.finance.yahoo.com/q/hp?s=ALXN&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m

【讨论】：

就是这样！绝对不会猜到！谢谢！