【发布时间】:2013-03-21 16:53:01
【问题描述】:
我使用 Ruby 1.9.3p385、Nokogiri 和 xpath v.1。
在 Stackoverflow 上很棒的人的帮助下,我想出了这个 xpath 表达式:
products = xml_file.xpath("(/root_tag/middle_tag/item_tag")
拆分此 XML 文件:
<root_tag>
<middle_tag>
<item_tag>
<headline_1>
<tag_1>Product title 1</tag_1>
</headline_1>
<headline_2>
<tag_2>Product attribute 1</tag_2>
</headline_2>
</item_tag>
<item_tag>
<headline_1>
<tag_1>Product title 2</tag_1>
</headline_1>
<headline_2>
<tag_2>Product attribute 2</tag_2>
</headline_2>
</item_tag>
</middle_tag>
</root_tag>
分成 2 个产品。
我现在希望遍历每个产品并提取所有产品信息(通过提取其叶节点)。为此,我正在使用此代码:
products.each do |product|
puts product #=> <item_tag><headline_1><tag_1>Product title 1</tag_1></headline_1><headline_2><tag_2>Product attribute 1</tag_2></headline_2></item_tag>
product_data = product.xpath("//*[not(*)]")
puts product_data #=> <tag_1>Product title 1</tag_1><tag_2>Product attribute 1</tag_2><tag_1>Product title 2</tag_1><tag_2>Product attribute 2</tag_2>
end
如您所见,这正是我想要的,除了一件事:它读取的是产品而不是产品。
如何将我的搜索限制在产品范围内?回答时,请注意示例已简化。我希望该解决方案“擦除”产品知识(如果可能的话),因为它可能适用于所有情况。
【问题讨论】:
-
//*[not(*)]中的//选择器将 xpath 的范围更改回文档根元素(root_tag)。您需要使用本地选择器编写此代码,例如headline_1或headine_1/tag_1,而不是使用//。 -
好的,但是您对可以处理此问题的表达式有什么建议吗?我在代码中有这样的:paths = ["/root_tag/middle_tag/item_tag/headline_1", "/root_tag/middle_tag/item_tag/headline_2"]。也许我们可以提取 "headline_1" 和 "headline_2"(两者都没有出现的部分),然后在本地搜索它们...
-
我是一个专业的刮刀,所以如果你放一些$$,我可以为你做,就像你requested。如果您有兴趣,请按照我的个人资料中的说明给我发电子邮件。
-
谢谢,但我只是在寻找一个常规的 SO 代码答案,所以我可以将代码放入我的应用程序并用它做很多事情。
标签: ruby xml xpath xml-parsing nokogiri