【发布时间】:2008-09-24 10:10:25
【问题描述】:
我有一个 2.4 MB 的 XML 文件,它是从 Microsoft Project 导出的(嘿,我是这里的受害者!),我被要求从中提取某些细节以便重新呈现。忽略请求的智能或其他方面,从 Ruby 的角度来看,我应该首先尝试哪个库?
我知道以下内容(排名不分先后):
我更喜欢打包成 Ruby gem 的东西,我怀疑 Chilkat 库不是。
性能不是主要问题 - 我不认为该事情需要每天运行一次以上(每周一次更有可能)。我对与 XML 相关的任何东西一样易于使用的东西更感兴趣。
编辑:我尝试了宝石化的:
hpricot 是最简单的。例如,要提取此 XML 中 SaveVersion 标记的内容(保存在名为“test.xml”的文件中)
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Project xmlns="http://schemas.microsoft.com/project">
<SaveVersion>12</SaveVersion>
</Project>
采取这样的方式:
doc = Hpricot.XML(open('test.xml'))
version = (doc/:Project/:SaveVersion).first.inner_html
hpricot 似乎相对不关心命名空间,在这个例子中这很好:只有一个,但可能是复杂文档的问题。由于 hpricot 也很慢,我宁愿认为这将是一个自行解决的问题。
libxml-ruby 速度快了一个数量级,可以理解命名空间(我花了好几个小时才弄清楚这一点),并且完全接近 XML 金属 - XPath 查询和所有其他东西都在那里。如果像我一样只在极端胁迫的情况下打开 XML 文档,这未必是件好事。帮助器模块主要有助于提供如何有效处理默认命名空间的示例。这大致就是我最终的结果(我并没有以任何方式断言它的美丽、正确性或其他价值,这就是我现在所处的位置):
xml_parser = XML::Parser.new
xml_parser.string = File.read(path)
doc = xml_parser.parse
@root = doc.root
@scopes = { :in_node => '', :in_root => '/', :in_doc => '//' }
@ns_prefix = 'p'
@ns = "#{@ns_prefix}:#{@root.namespace[0].href}"
version = @root.find_first(xpath_qry("Project/SaveVersion", :in_root), @ns).content.to_i
def xpath_qry(tags, scope = :in_node)
"#{@scopes[scope]}" + tags.split(/\//).collect{ |tag| "#{@ns_prefix}:#{tag}"}.join('/')
end
我仍在争论利弊:libxml 更严谨,hpricot 为 _why 代码的纯粹风格。
稍后再编辑:我发现了HappyMapper('gem install happymapper'),如果仍处于早期阶段,它是非常有前途的。它是声明性的并且大部分都有效,尽管我发现了一些我还没有修复的边缘情况。它可以让你做这样的事情,解析我的谷歌阅读器 OPML:
module OPML
class Outline
include HappyMapper
tag 'outline'
attribute :title, String
attribute :text, String
attribute :type, String
attribute :xmlUrl, String
attribute :htmlUrl, String
has_many :outlines, Outline
end
end
xml_string = File.read("google-reader-subscriptions.xml")
sections = OPML::Outline.parse(xml_string)
我已经喜欢它了,尽管它还不完美。
【问题讨论】:
-
哦,不!一个 2.4 mb 的 XML 文件!恐怖!
-
好吧,如果是 2.4 GB,我想答案可能会有所不同... ;)