【发布时间】:2015-03-01 22:20:10
【问题描述】:
我有 100 个网站,它们的 RSS 提要暴露在不同的位置。这些位置有几个指向不同提要的 RSS 提要链接。它几乎与 BBC Rss 提要页面相同 http://www.bbc.com/news/10628494
站点 1:domain1.com/rss 站点 2:domain2.com/enviroments/rss
有什么方法可以提取到每个提要 xml 的 rss 链接。
类似的东西 Automatically Extracting feed links (atom, rss,etc) from webpages 但我只想提供网站。这样我就可以获得特定站点的所有可能的 RSS 提要。
我想要一份来自 100 个网站的所有 rss 提要的列表。所以我可以在仪表板上监控它们。哦,饲料 aee 混合了比特原子和 rss。
我做了什么。我研究了 apache nutch 和 parse-feed 插件。 Scrapy 是下一个选择,但我仍然不确定这是我在寻找什么。
【问题讨论】:
标签: rss web-crawler feed atom-feed scraper