【发布时间】:2021-01-11 16:39:59
【问题描述】:
我已经进行网络抓取大约 3 个月了,我注意到我的许多蜘蛛需要不断地照看,因为网站不断变化。我使用 scrapy、python 和 crawlera 来抓取我的网站。例如,两周前我创建了一个蜘蛛,但由于网站将它们的元标记从单数更改为复数(因此位置变成了位置),我不得不重新构建它。这么小的变化应该不会真的惹恼我的蜘蛛,所以我想对我的收藏采取更具防御性的方法。有没有人对网络抓取有任何建议以减少保姆?提前谢谢你!
【问题讨论】:
标签: web-scraping scrapy scrapy-shell web-mining