【发布时间】:2023-03-14 05:53:01
【问题描述】:
尝试通过使用长字符串将 URL 的“列表”发送到 scrapy 以通过某个蜘蛛进行爬网,然后在爬虫内拆分字符串。我尝试复制this 答案中给出的格式。
我要发送给爬虫的列表是future_urls
>>> print future_urls
set(['https://ca.finance.yahoo.com/q/hp?s=ALXN&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'http://finance.yahoo.com/q/hp?s=TFW.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'https://ca.finance.yahoo.com/q/hp?s=DLTR&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'https://ca.finance.yahoo.com/q/hp?s=AGNC&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'https://ca.finance.yahoo.com/q/hp?s=HMSY&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m', 'http://finance.yahoo.com/q/hp?s=BATS.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m'])
然后通过以下方式发送给爬虫:
command4 = ("scrapy crawl future -o future_portfolios_{0} -t csv -a future_urls={1}").format(input_file, str(','.join(list(future_urls))))
>>> print command4
scrapy crawl future -o future_portfolios_input_10062008_10062012_ver_1.csv -t csv -a future_urls=https://ca.finance.yahoo.com/q/hp?s=ALXN&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,http://finance.yahoo.com/q/hp?s=TFW.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,https://ca.finance.yahoo.com/q/hp?s=DLTR&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,https://ca.finance.yahoo.com/q/hp?s=AGNC&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,https://ca.finance.yahoo.com/q/hp?s=HMSY&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m,http://finance.yahoo.com/q/hp?s=BATS.L&a=06&b=10&c=2012&d=06&e=10&f=2015&g=m
>>> type(command4)
<type 'str'>
我的爬虫(部分):
class FutureSpider(scrapy.Spider):
name = "future"
allowed_domains = ["finance.yahoo.com", "ca.finance.yahoo.com"]
start_urls = ['https://ca.finance.yahoo.com/q/hp?s=%5EIXIC']
def __init__(self, *args, **kwargs):
super(FutureSpider, self).__init__(*args,**kwargs)
self.future_urls = kwargs.get('future_urls').split(',')
self.rate_returns_len_min = 12
self.required_amount_of_returns = 12
for x in self.future_urls:
print "Going to scrape:"
print x
def parse(self, response):
if self.future_urls:
for x in self.future_urls:
yield scrapy.Request(x, self.stocks1)
但是,从print 'going to scrape:', x 打印出来的是:
Going to scrape:
https://ca.finance.yahoo.com/q/hp?s=ALXN
只有一个url,而且只是future_urls中第一个url的一部分,这显然是有问题的。
似乎无法弄清楚为什么爬虫不会抓取future_urls中的所有网址...
【问题讨论】:
-
您能否在 init 中的“for x in self.future_urls:”处设置断点,if 语句应该在列表和集合上都可以正常工作。唯一的解释是future_urls只有1个元素。