【发布时间】:2020-10-21 09:41:38
【问题描述】:
我正在尝试垂直抓取遵循 html 方向的简单规则的页面:
他们有 /MLA#### 或 /MLA-####(# 作为随机数)
问题是,使用以下代码,当 /MLA#### 或 /####MLA### 页面出现我的 scrapy 时,scrapy 只会检测到我与 /MLA-#### 名称的页面一样好代码不起作用,抓取错误
rules = (Rule(LinkExtractor(allow=r'/_Desde_'), follow=True),
Rule(LinkExtractor(allow='/'+'MLA'), follow=True, callback='parse_items'))
以前是这样的:
rules = (Rule(LinkExtractor(allow=r'/_Desde_'), follow=True),
Rule(LinkExtractor(allow=r'/MLA'), follow=True, callback='parse_items'))
那么我该如何对我的代码说:我想抓取所有包含 MLA 的链接,无论这些词的前后是什么。
感谢你们的cmets, 问候
【问题讨论】:
标签: python web-scraping scrapy