【问题标题】:Paging through Rss feeds通过 Rss 提要进行分页
【发布时间】:2011-11-10 02:49:30
【问题描述】:

我使用谷歌阅读器浏览各种 RSS 源。它所做的其中一件事是说明有多少未读项目。它是如何跟踪的?我的意思是,当我查看任何给定 rss 提要的来源时,它会显示一个包含 20 个项目的有限列表。如果我有一段时间不查看提要,我的未读项目可能比这 20 个项目中交付的要多。

它是如何做到的?谷歌是否只是使用它的资源并经常检查提要并存储项目?有没有办法通过 RSS 提要进行分页?

【问题讨论】:

    标签: rss


    【解决方案1】:

    RSS 只是一种 XML 文件格式。要记住您阅读过的内容,您需要在本地存储该信息。

    一些 RSS 提供程序有一个 API,因此您可以使用一组特定的参数请求 rss 文档,但如果您只是检查 RSS 是否有更新,则必须记住您之前看到的内容(可能通过存储最后检索到一个并进行比较)。

    简而言之,是的,Google 可能会存储 RSS 历史记录,以便为您提供当前提要显示之外的历史记录。它可能会非常频繁地对他们进行民意调查。网站所有者可以添加元信息标签,告诉 Google 机器人多久回来检查一次更新。

    如果更新发生得非常快,并且在您的爬虫到达之前从显示的 RSS 中推出,那么除非提供者提供其他检索信息的方式,否则您将不走运。

    【讨论】:

    • 仅仅知道你看到了什么是不够的。如果您有一段时间没有访问 rss,并且有些项目您没有看到并且已经足够老,不再出现在当前的提要中,那么 google 看到的项目就会出现空白。它怎么知道他们?
    猜你喜欢
    • 2012-07-19
    • 1970-01-01
    • 1970-01-01
    • 2017-12-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-01-25
    • 2013-07-15
    相关资源
    最近更新 更多