使用 Grep/Sed/Awk 拆分 XML 文件？答案

【问题标题】：Splitting XML file using Grep / Sed / Awk?使用 Grep/Sed/Awk 拆分 XML 文件？
【发布时间】：2012-07-11 11:48:42
【问题描述】：

试图找出最好的方法（通过使用我在 Grep / Sed / Awk 中所知道的）来根据它的单个字符串（键？）分割 XML 文件。我有一个 XML 文件，它是我当前所有常见问题解答条目的 SQL 转储，因此它包含一个条目 ID，然后是一个相当大的 HTML 格式文档。我希望将这些条目分开，以便我可以轻松地将它们弹出到编辑器中并清理格式以导入新的 KB / FAQ 系统。这是我的数据示例：

 <article id="3">
  <language>en</language>
  <category>Category Name</category>
  <keywords>Keywords, by, comma</keywords>
  <question>Question?</question>
  <answer>HTML Formatting</answer>
  <author>Author</author>
  <data>2010-05-13 09:32</data>
 </article>

XML 文件包含我拥有的每一篇以这种格式背靠背的知识库文章。我对 bash 很满意，只是不知道如何根据搜索将其拆分为多个文件。

干杯，

粘土

【问题讨论】：

编写一些简短的 php/perl/python 脚本来解析您的 XML 并将其写入不同的文件会容易得多。
您可以在此处找到针对类似问题的简短 perl 解决方案：stackoverflow.com/questions/8061475/… 也有一些使用 sed 或 awk 的尝试看起来是可行的选择。
您也许能够在 GNU awk 中使用多行 RS 模式做一些事情，但我无法让它在临时测试中工作。 sed 多行模式将比它的价值更麻烦。你最好的选择是 Perl、Python 和 Ruby，除非你喜欢做一些事情，比如仅仅为了挑战而使用 PyX。

标签： xml parsing sed awk grep

【解决方案1】：

使用 XPath 提取文章

如果您的文件是有效的 XML，您可以使用像 xgrep 或 XMLStarlet 这样的实用程序来解析文件以获取 XPath 表达式。例如，使用 xgrep：

xgrep -x "//article[@id]" /tmp/foo

这可能就是您所需要的。但是，它不会拆分文章；它只是比使用正则表达式更可靠地提取 XML 的正确部分。

使用管道将文章节点拆分为文件

如果您确实需要将文章拆分为单独的文件，您可以执行以下操作：

xgrep -x "//article[@id]" /tmp/foo.rb |
ruby -ne 'BEGIN { counter=0 }
          counter += 1 if /<article/
          if /<article/ ... /<\/article/
            File.open("#{counter}.xml", "a") { |f| f.puts $_ }
          end'

显然，您可以使用 Ruby XML 库完成所有工作，但我更喜欢将此类问题视为 shell 管道。您的里程可能会有所不同。

另外，请注意，上面的 Ruby 脚本会按顺序对您的文章进行编号，而不是按文章 ID。如果您的 XML 中有重复的 ID，这可能更可取。

带有 XmlSimple 的纯 Ruby

好吧，好吧......我就是不能让这个人一个人呆着。起初，在上述管道中使用外部 shell 实用程序似乎是一个好主意，但如果您仍然要使用 Perl 或 Ruby，您不妨只使用 XmlSimple 库。

下面的 Ruby 脚本比流水线版本稍长，但为您提供了更多的控制权和灵活性。以此为起点，考虑您拥有的所有可能性：

#!/usr/bin/env ruby

require 'xmlsimple'

counter = 0
node_name = 'article'
xml = XmlSimple.xml_in '/tmp/foo'

xml[node_name].uniq.each do |node|
  counter = sprintf("%03d", counter.next)
  XmlSimple.xml_out(node,
                    RootName: node_name,
                    OutputFile: "/tmp/#{counter}.xml")
end

【讨论】：

【解决方案2】：

cat file.xml | \
perl -p -i -e 'open(F, ">", ($1).".xml") if /<article id="(\d+)"/; print F;'

将根据文章的 ID 拆分 xml 文件。每个文章部分将存储在自己的文件中，名称中带有 ID 号。即使在大文件上它也能运行得非常快（sed、awk 等解决方案在这种情况下真的很慢）。

【讨论】：

cat 不需要； perl 可以接受文件参数。此外，当我在本地尝试此操作时，如果文件中还有其他 XML 标记（例如，如果最后一行是 </foo>），我会感到很麻烦。

【解决方案3】：

这里有一个简单的 awk 想法：

每当您点击带有文章开始标签的行时，将计数器变量加一。然后，对每一行进行系统调用，如“echo $0 >> file$COUNTER”。这应该很容易实现

【讨论】：