【发布时间】:2020-06-25 14:56:18
【问题描述】:
我正在使用 Stormcrawler(v1.16) 和 Elasticsearch(v7.5.0)。我已经成功爬取了新闻网站。但是当我将 rss 提要或站点地图放入 seed.txt 时,它并没有抓取。
我的seeds.txt如下图:
https://www.theguardian.com/world/eu/rss isFeed=true
https://www.theguardian.com/politics/rss isFeed=true
https://www.theguardian.com/science/rss isFeed=true
https://www.theguardian.com/education/rss isFeed=true
https://www.theguardian.com/football/rss isFeed=true
https://www.elwatannews.com/home/rssfeeds isFeed=true
将 rss 提要添加到 seed.txt 后的拓扑统计数据
[
我也提到了news-crawl commoncrawler github,但我不明白它是如何工作的。我应该做哪些更改,以便它也可以抓取 rss 提要和站点地图。
【问题讨论】:
标签: web-crawler rss apache-storm sitemap stormcrawler