【发布时间】:2010-11-22 06:17:39
【问题描述】:
我有一个由串联的有效 XML 文档组成的文件。我想有效地分离单个 XML 文档。
连接文件的内容将如下所示,因此连接文件本身不是有效的 XML 文档。
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
<?xml version="1.0" encoding="UTF-8"?>
<someData>...</someData>
每个单独的 XML 文档大约 1-4 KB,但可能有几百个。所有 XML 文档都对应相同的 XML Schema。
有什么建议或工具吗?我在 Java 环境中工作。
编辑:我不确定 xml 声明是否会出现在文档中。
编辑:假设所有 xml 文档的编码都是 UTF-8。
【问题讨论】:
-
我们是否假设每个字符编码都保持相同?否则这将变得更加困难:-)
-
所有文件都使用与文档本身相同的编码。如果他们说他们是 UTF-8 也没关系。如果连接的文档格式为 UTF-16,则它们都是 UTF-16。