如何使用 Stormcrawler 抓取新闻网站的 RSS 提要或站点地图？答案

【问题标题】：How to crawl RSS feeds or sitemaps of a NEWS WEBSITE using stormcrawler?如何使用 Stormcrawler 抓取新闻网站的 RSS 提要或站点地图？
【发布时间】：2020-06-25 14:56:18
【问题描述】：

我正在使用 Stormcrawler(v1.16) 和 Elasticsearch(v7.5.0)。我已经成功爬取了新闻网站。但是当我将 rss 提要或站点地图放入 seed.txt 时，它并没有抓取。

我的seeds.txt如下图：

https://www.theguardian.com/world/eu/rss    isFeed=true
https://www.theguardian.com/politics/rss    isFeed=true
https://www.theguardian.com/science/rss isFeed=true
https://www.theguardian.com/education/rss   isFeed=true
https://www.theguardian.com/football/rss    isFeed=true
https://www.elwatannews.com/home/rssfeeds   isFeed=true

将 rss 提要添加到 seed.txt 后的拓扑统计数据

[

我也提到了news-crawl commoncrawler github，但我不明白它是如何工作的。我应该做哪些更改，以便它也可以抓取 rss 提要和站点地图。

【问题讨论】：

标签： web-crawler rss apache-storm sitemap stormcrawler

【解决方案1】：

您在种子文件中所做的更改不会被自动拾取。您需要重新启动拓扑。完成后，只需使用 Kibana 或直接查询 ES 来检查种子 URL 的状态以及它们可能选择的任何外链。

【讨论】：

嘿@julian 我已经这样做了。我遵循的步骤是首先将 RSS 提要放入种子.txt，然后运行 bash ES_IndexInit.sh，然后开始拓扑。请提出其他建议。
你似乎忽略了我的建议的第二部分