【发布时间】:2011-11-10 02:49:30
【问题描述】:
我使用谷歌阅读器浏览各种 RSS 源。它所做的其中一件事是说明有多少未读项目。它是如何跟踪的?我的意思是,当我查看任何给定 rss 提要的来源时,它会显示一个包含 20 个项目的有限列表。如果我有一段时间不查看提要,我的未读项目可能比这 20 个项目中交付的要多。
它是如何做到的?谷歌是否只是使用它的资源并经常检查提要并存储项目?有没有办法通过 RSS 提要进行分页?
【问题讨论】:
标签: rss
我使用谷歌阅读器浏览各种 RSS 源。它所做的其中一件事是说明有多少未读项目。它是如何跟踪的?我的意思是,当我查看任何给定 rss 提要的来源时,它会显示一个包含 20 个项目的有限列表。如果我有一段时间不查看提要,我的未读项目可能比这 20 个项目中交付的要多。
它是如何做到的?谷歌是否只是使用它的资源并经常检查提要并存储项目?有没有办法通过 RSS 提要进行分页?
【问题讨论】:
标签: rss
RSS 只是一种 XML 文件格式。要记住您阅读过的内容,您需要在本地存储该信息。
一些 RSS 提供程序有一个 API,因此您可以使用一组特定的参数请求 rss 文档,但如果您只是检查 RSS 是否有更新,则必须记住您之前看到的内容(可能通过存储最后检索到一个并进行比较)。
简而言之,是的,Google 可能会存储 RSS 历史记录,以便为您提供当前提要显示之外的历史记录。它可能会非常频繁地对他们进行民意调查。网站所有者可以添加元信息标签,告诉 Google 机器人多久回来检查一次更新。
如果更新发生得非常快,并且在您的爬虫到达之前从显示的 RSS 中推出,那么除非提供者提供其他检索信息的方式,否则您将不走运。
【讨论】: