【问题标题】:Check if a URL is a valid Feed检查 URL 是否是有效的 Feed
【发布时间】:2012-08-13 08:23:21
【问题描述】:

我正在使用 Argotic Syndication Framework 来处理提要。

但问题是,如果我将 URL 传递给 Argotic,它不是有效的提要(例如,http://stackoverflow.com 这是一个 html 页面,而不是提要),程序就会挂起(我的意思是,Argotic 停留在无限循环)

那么,如何检查一个 URL 是否指向一个有效的提要?

【问题讨论】:

    标签: c# feed argotic


    【解决方案1】:

    从 .NET 3.5 开始,您可以在下面执行此操作。如果它不是有效的提要,它将引发异常。

    using System.Diagnostics;
    using System.ServiceModel.Syndication;
    using System.Xml;
    
    public bool TryParseFeed(string url)
    {
        try
        {
            SyndicationFeed feed = SyndicationFeed.Load(XmlReader.Create(url));
    
            foreach (SyndicationItem item in feed.Items)
            {
                Debug.Print(item.Title.Text);
            }
            return true;
        }
        catch (Exception)
        {
            return false;
        }
    }
    

    或者您可以尝试自己解析文档:

    string xml = "<?xml version=\"1.0\" encoding=\"utf-8\" ?>\n<event>This is a Test</event>";
    XmlDocument xmlDoc = new XmlDocument();
    xmlDoc.LoadXml(xml);
    

    然后尝试检查根元素。它应该是 feed 元素并具有“http://www.w3.org/2005/Atom”命名空间:

    <feed xmlns="http://www.w3.org/2005/Atom" xmlns:creativeCommons="http://backend.userland.com/creativeCommonsRssModule" xmlns:re="http://purl.org/atompub/rank/1.0">
    

    参考资料: http://msdn.microsoft.com/en-us/library/system.servicemodel.syndication.syndicationfeed.aspx http://dotnet.dzone.com/articles/systemservicemodelsyndication

    【讨论】:

    • 由于我的项目是在一个web应用程序中,所以我不能信任header。有人可能会提供无效的提要,但有效的 XML 和有效的根元素,然后我的应用程序挂起... :(
    • 感谢您的更新。但是一个问题:System.ServiceModel.Syndication 支持哪些提要格式?
    • Atom 1.0 中的 和 RSS 2.0 中的 msdn.microsoft.com/en-us/library/…
    • 你的方法的优点是它不需要任何网络请求来确定它是否有效。但缺点是,Argotic 支持更多的提要类型,但 System.ServiceModel.Syndication 不支持。
    • @AkiraYamamoto 使用 SyndicationFeed.Load() 的一个问题是它经常会在“有效”rss 和 atom 提要上遇到 dtd 错误。问题是根据规范,提要可能是“无效的”,但根据使用它们的应用程序是有效的,因此 SyndicationFeed.Load() 消除了一堆好的提要。
    【解决方案2】:

    您可以检查内容类型。它必须是text/xml。请参阅this question 以查找内容类型。

    您可以使用此代码:

    var request = HttpWebRequest.Create("http://www.google.com") as HttpWebRequest;
    if (request != null)
    {
        var response = request.GetResponse() as HttpWebResponse;
    
        string contentType = "";
    
        if (response != null)
            contentType = response.ContentType;
    }
    

    感谢the question的回答

    更新

    要检查它是否是提要地址,您可以使用W3C Feed Validation 服务。

    更新2

    正如 BurundukXP 所说,它有一个 SOAP API。要使用它,您可以阅读this question 的答案。

    【讨论】:

    • 每个 XML 都不是 Feed。另请阅读我对其他答案的评论。
    • @ahmadalishafiee - 你的核心陈述:“它必须是文本/xml”是不正确的。首先,任何响应都可以指示任何内容类型,因此单独的结果是不权威的。此外,text/rss+xml 是 RSS 提要的有效内容类型。
    【解决方案3】:

    您可以使用Feed Validation Service。它有SOAP API

    【讨论】:

    • 谢谢。看来你的答案是最好的。但是你能解释更多关于 SOAP API 的内容吗?如何联系该 API?是否可以使用 GET 请求调用该 API?
    • @MahdiGhiasi 查看这篇文章 - msdn.microsoft.com/en-us/library/ff512390.aspx 如果不清楚,我稍后会创建一个示例。
    • 如果您创建一个示例会很好:) 谢谢
    • @MahdiGhiasi 好的。 9 到 10 小时后我就可以免费了。
    • 此服务有一个限制:每秒 1 个请求。所以我不能从服务器端向这个服务发出请求。关于客户端,它也不允许 ajax 请求:stackoverflow.com/questions/11997256/…,没有办法从客户端使用此服务吗?
    【解决方案4】:

    如果您只想将其转换为有效的 RSS/ATOM,您可以使用http://feedcleaner.nick.pro/ 对其进行清理。或者,您可以fork the project

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-12-20
      • 1970-01-01
      • 1970-01-01
      • 2014-07-24
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多