【问题标题】:Best practice to keep RSS feeds unique in sql database保持 RSS 提要在 sql 数据库中唯一的最佳实践
【发布时间】:2012-08-14 13:52:31
【问题描述】:

我正在开展一个项目,该项目显示来自不同站点的 RSS 提要。 我将它们保存在数据库中,我的程序每 3 小时提取一次并将它们插入到 sql 数据库中。 我希望提供者的唯一记录不显示重复的内容。

但问题是一些提供者不提供 GUID 字段,而另一些提供者提供 GUID 字段但不提供 pubdate。还有一些提供者甚至不提供 GUID 或 PubDate 只是标题和链接。

那么在 sql server 中保持 rss feed uniqe 最好的方法是什么?

我应该检查第一个 guid,然后是 pubbdate,然后是链接,然后是标题吗?比较 SQL 中的链接字段以检查唯一性是否是一种好习惯?

谢谢。

【问题讨论】:

    标签: sql rss unique feed


    【解决方案1】:

    我会开发一个例程,它采用某些关键参数,如标题、来源和正文,然后将它们组合起来创建一个 CRC 哈希。然后将散列作为属性存储在提要中,并在添加新提要之前检查匹配的散列。

    我不确定您的环境限制是什么,但这里有一个在 C# 中计算 CRC-32 的示例:http://damieng.com/blog/2006/08/08/calculating_crc32_in_c_and_net

    【讨论】:

    • md5 哈希不是 CRC,你需要一个即使数据发生变化也能改变的哈希
    猜你喜欢
    • 1970-01-01
    • 2017-09-08
    • 1970-01-01
    • 2023-03-16
    • 1970-01-01
    • 1970-01-01
    • 2010-12-01
    • 2010-11-09
    • 2010-10-29
    相关资源
    最近更新 更多