【问题标题】:Retrieving raw XML for items with feedparser使用 feedparser 检索项目的原始 XML
【发布时间】:2011-10-30 15:06:02
【问题描述】:

我正在尝试使用 feedparser 从提要中检索一些特定信息,但也检索每个条目的原始 XML(即 RSS 和 Atom 的元素),但我不知道该怎么做。显然我可以手动解析 XML,但这不是很优雅,需要单独支持 RSS 和 Atom,而且我想它可能会与 feedparser 不同步以获取格式错误的提要。有没有更好的办法?

谢谢!

【问题讨论】:

    标签: python xml rss atom-feed feedparser


    【解决方案1】:

    我是 feedparser 的当前开发人员。目前,获取该信息的方法之一是猴子补丁feedparser._FeedParserMixin(或编辑 feedparser.py 的本地副本)。您要修改的方法是:

    • feedparser._FeedParserMixin.unknown_starttag
    • feedparser._FeedParserMixin.unknown_endtag

    在每个方法的顶部,您可以插入一个回调到您自己的例程,该例程将捕获 feedparser 遇到的元素及其属性。

    【讨论】:

    • 非常感谢!这很有用,但我打算检索每个项目的完整 XML(包括已知项目),作为存储它们并将它们返回到聚合提要中的一种方式(例如)。 [实际上,我意识到这不是很方便,因为项目可以是各种格式(RSS、Atom 等)。也许它是对 feedparser 的一个有用的补充,它有一种方法可以为 feedparser 可以解析的各种格式的项目生成回 XML...]
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-09-25
    • 1970-01-01
    • 1970-01-01
    • 2020-04-21
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多