【发布时间】:2011-12-19 20:22:21
【问题描述】:
我正在使用 python 构建一个应用程序,其功能类似于 RSS 聚合器。我正在使用 feedparser 库来执行此操作。但是,我正在努力让程序正确检测是否有新内容。
我主要关注与新闻相关的提要。除了查看是否已将新项目添加到提要中之外,我还希望能够检测以前的文章是否已更新。有谁知道我如何使用 feedparser 来做到这一点,记住唯一的强制性项目元素是标题或描述?我愿意假设链接元素也将始终存在。
Feedparser 与每个项目关联的“id”属性似乎只是指向文章的链接,因此这可能有助于检测提要上的新文章,但不能检测对以前文章的更新,因为这些文章的“id”不会变了。
我在 stackoverflow 上查看了以前的线程,有些人建议对内容进行哈希处理或对标题 + url 进行哈希处理,但我不确定这意味着什么或如何去做(如果确实是正确的方法)。
【问题讨论】:
标签: python rss feedparser