【发布时间】:2018-10-18 18:51:21
【问题描述】:
我一直在学习一些草率的教程,但我有一个问题(我对此很陌生,所以如果这是一个愚蠢的问题,我深表歉意)。到目前为止,我所看到的大部分内容都涉及:
1) 向 scrapy 提供起始 url
2) 告诉 scrapy 抓取页面的哪些部分
3)告诉scrapy如何找到“下一个”页面来抓取
我想知道的是 - 当数据本身不在起始页上时,我能否使用 scrapy 抓取数据?例如,我有一个指向论坛的链接。该论坛包含几个子论坛的链接。每个子论坛都有指向多个主题的链接。每个线程都包含多条消息(可能跨越多个页面)。这些消息是我最终想要抓取的。是否可以这样做并仅使用论坛的初始链接?是否可以让scrapy浏览每个子论坛,并且每个线程和然后开始抓取?
【问题讨论】: