【问题标题】:java sax parse not well formed xmljava sax解析格式不正确的xml
【发布时间】:2012-03-13 17:22:43
【问题描述】:

我正在使用 Java 和 SAX 从搜索引擎实现 RSS 搜索功能。但是,某些搜索结果的格式不正确,即某些条目的 <title> 标记的正文包含 & 字符而不是 & 等(例如,比如 Starsky & Hutch)。

在解析 RSS 时,我得到一个 org.apache.harmony.xml.ExpatParser&ParseException,导致整个搜索中断并且什么也不返回。

我希望我的解析器能够解决这些错误,就像 Firefox 的 RSS 阅读器一样。有哪些方法可以解决此问题并解析 RSS 提要?

【问题讨论】:

  • RSS 提要解析器怎么样? stackoverflow.com/search?q=%5Bjava%5D+rss+parser
  • 如果格式不正确,则不是 RSS 提要。一个迂腐的观点,但至关重要。
  • @skaffman 我同意你的看法。但这让我别无选择,只能放弃那个提要。太糟糕了,虽然这是他们的错

标签: java rss sax well-formed


【解决方案1】:

SAX 实现通常旨在检测错误并引发异常,并且没有解决此问题的标准方法。我能想到的最合理的做法是在流式传输到 SAX 之前尝试修补错误,例如杂散和字符。

【讨论】:

    猜你喜欢
    • 2010-10-17
    • 1970-01-01
    • 2011-05-11
    • 1970-01-01
    • 1970-01-01
    • 2017-08-19
    • 1970-01-01
    相关资源
    最近更新 更多