【问题标题】:How to crawl RSS feeds or sitemaps of a NEWS WEBSITE using stormcrawler?如何使用 Stormcrawler 抓取新闻网站的 RSS 提要或站点地图?
【发布时间】:2020-06-25 14:56:18
【问题描述】:

我正在使用 Stormcrawler(v1.16) 和 Elasticsearch(v7.5.0)。我已经成功爬取了新闻网站。但是当我将 rss 提要或站点地图放入 seed.txt 时,它并没有抓取。

我的seeds.txt如下图:

https://www.theguardian.com/world/eu/rss    isFeed=true
https://www.theguardian.com/politics/rss    isFeed=true
https://www.theguardian.com/science/rss isFeed=true
https://www.theguardian.com/education/rss   isFeed=true
https://www.theguardian.com/football/rss    isFeed=true
https://www.elwatannews.com/home/rssfeeds   isFeed=true

将 rss 提要添加到 seed.txt 后的拓扑统计数据

[

我也提到了news-crawl commoncrawler github,但我不明白它是如何工作的。我应该做哪些更改,以便它也可以抓取 rss 提要和站点地图。

【问题讨论】:

    标签: web-crawler rss apache-storm sitemap stormcrawler


    【解决方案1】:

    您在种子文件中所做的更改不会被自动拾取。您需要重新启动拓扑。完成后,只需使用 Kibana 或直接查询 ES 来检查种子 URL 的状态以及它们可能选择的任何外链。

    【讨论】:

    • 嘿@julian 我已经这样做了。我遵循的步骤是首先将 RSS 提要放入种子.txt,然后运行 ​​bash ES_IndexInit.sh,然后开始拓扑。请提出其他建议。
    • 你似乎忽略了我的建议的第二部分
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-07-30
    • 1970-01-01
    • 1970-01-01
    • 2017-04-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多