【问题标题】:How can I crawl a bunch of links on a root website using Scrapy?如何使用 Scrapy 在根网站上抓取一堆链接?
【发布时间】:2022-01-11 13:11:31
【问题描述】:

我正在尝试抓取一个 covid-19 统计网站,该网站有一堆链接到有关不同国家统计数据的页面。这些链接都有一个类名,可以使用 css 选择器 ('mt_a') 轻松访问它们。国家之间没有连续性,因此如果您在其中一个国家/地区的网页上,则没有前往下一个国家/地区的链接。我是一个完全的scrapy初学者,如果我的目标是抓取根页面上列出的所有(200 ish)链接以获得相同的几条信息,我不确定我应该怎么做。任何关于我应该尝试做什么的指导将不胜感激。

我要抓取的链接:https://www.worldometers.info/coronavirus/ (向下滚动查看国家/地区链接)

【问题讨论】:

  • 如果您发现有帮助的解决方案,请接受。

标签: python html web-scraping scrapy web-crawler


【解决方案1】:

我要做的是创建两个蜘蛛。一个人会解析主页并提取锚标签内指向国家页面href的所有特定链接,即href="country/us/",然后从这些相对链接创建完整的url,这样你就可以得到一个正确的url,比如https://www.worldometers.info/coronavirus/country/us/

然后第二个蜘蛛得到所有国家/地区网址的列表,然后继续抓取所有单独的页面并从中提取信息。

例如,你从第一个蜘蛛那里得到一个 url 列表:

urls = ['https://www.worldometers.info/coronavirus/country/us/',
'https://www.worldometers.info/coronavirus/country/russia/']

然后在第二个蜘蛛中,将该列表赋予start_urls 属性。

【讨论】:

  • 好的,谢谢!是的,这是有道理的,我已经设法通过基本的字符串操作创建了所有链接的列表,我将研究如何将该列表传递到另一个蜘蛛的 start_urls 中。
  • 很高兴这有帮助。查看更新的答案。
【解决方案2】:

我想其他人已经回答了这个问题,但这里是Link extractors 的页面。

【讨论】:

  • 好的,谢谢!我依赖于它在您发布帖子时向您显示的类似帖子,因为我没有看到任何听起来像我刚刚发布的问题。
猜你喜欢
  • 2020-09-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-04-24
  • 1970-01-01
  • 1970-01-01
  • 2013-05-09
  • 2020-10-12
相关资源
最近更新 更多