【问题标题】:Split XML file into multiple files with 500 tags each将 XML 文件拆分为多个文件,每个文件有 500 个标签
【发布时间】:2011-03-15 12:04:55
【问题描述】:

我有一个大 (1 GB) 文件,我需要将其拆分为较小的文件。我希望每个较小的文件包含 500 个 <OFFER> 标签。

这是大型 XML 文件的小 sn-p:

<?xml version="1.0"?><RESULT>
<header>
    <site>http://www.thomascook.fr</site>
    <marque>ThomasCook France</marque>
    <logo>http://www.example.com/example.gif</logo>
</header>
<OFFER>
    <IFF>5810</IFF>
    <TO>TCF</TO>
    <COUNTRY>Chypre</COUNTRY>
    <REGION>Chypre du Sud</REGION>
    <HOTELNAME>Elias Beach &amp; Country Club</HOTELNAME>
    <DESCRIPTION>....</DESCRIPTION>
    <TYPE>Sejour</TYPE>
    <STARS>5.0</STARS>
    <THEMAS>Plage directe;Special enfant;Bien-Etre-Fitness</THEMAS>
    <THUMBNAIL>http://example.com/example.jpg</THUMBNAIL>
    <URL>http://example.com/example.html</URL>
    <DATE>
        <BROCHURE>TCFB</BROCHURE>
        <DURATION>7</DURATION>
        <DURATION_VAR>6_6-9</DURATION_VAR>
        <BOARD>Demi-pension</BOARD>
        <DEPARTURE>27.2.2011</DEPARTURE>
        <RETURN>6.3.2011</RETURN>
        <DEPARTURE_CITY>PAR</DEPARTURE_CITY>
        <ARRIVAL_CITY>LCA</ARRIVAL_CITY>
        <PRICE>790</PRICE>
        <URL>http://example.com/other-example.html</URL>
    </DATE>
</OFFER>
<OFFER>
  (etc)
</OFFER>

我该怎么做?

【问题讨论】:

  • 请缩进您的 XML 以便我们阅读。
  • 您正在使用(或能够使用)哪种编程语言?

标签: java xml split stax


【解决方案1】:

从你的英文我了解到你想将一个大的 XML 文件拆分成多个小文件。最好的是http://vtd-xml.sourceforge.net/

示例代码,以下代码将基于XPath,TopTag/ChildTag 拆分大xml


import java.io.File;
import java.io.FileOutputStream;

import com.ximpleware.AutoPilot;
import com.ximpleware.FastLongBuffer;
import com.ximpleware.VTDGen;
import com.ximpleware.VTDNav;

// This example shows how to split XML
public class Split {
    public static void main(String[] args) {
        String prefix = "<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"yes\"?>\n<TopTag xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\">\n";
        String suffix = "\n</TopTag&lt";
        try {

            VTDGen vg = new VTDGen();
            if (vg.parseFile(args[0], false)) {
                int splitBy = Integer.parseInt(args[1]);
                String filePrefix =  args[2];
                VTDNav vn = vg.getNav();
                AutoPilot ap = new AutoPilot(vn);
                ap.selectXPath("/TopTag/ChildTag");
                // flb contains all the offset and length of the segments to be
                // skipped
                FastLongBuffer flb = new FastLongBuffer(4);
                int i;
                byte[] xml = vn.getXML().getBytes();
                while ((i = ap.evalXPath()) != -1) {
                    flb.append(vn.getElementFragment());
                }
                int size = flb.size();
                if (size != 0) {
                    File fo = null;
                    FileOutputStream fos = null;
                    for (int k = 0; k < size; k++) {
                        if (k % splitBy == 0) {
                            if (fo != null) {
                                fos.write(suffix.getBytes());
                                fos.close();
                                fo = null;
                            }
                        }
                        if (fo == null) {
                            fo = new File(filePrefix + k + ".xml");
                            fos = new FileOutputStream(fo);
                            fos.write(prefix.getBytes());
                        }
                        fos.write(xml, flb.lower32At(k), flb.upper32At(k));
                    }
                    if (fo != null) {
                        fos.write(suffix.getBytes());
                        fos.close();
                        fo = null;
                    }
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

【讨论】:

  • 我的理解是 vdt-xml 通过将整个 XML 文档加载到内存中来工作。虽然它声称可以有效地使用内存,但即使根据它自己的估计,对于 1Gb 的 XML 文档,这可能需要多达 1.5Gb 的堆。
【解决方案2】:

作为一个编程问题,这只是一个stax的问题​​编程

每 500 个元素进行必要的调用以结束元素和文档、关闭文件、打开新文件、启动新文件,然后继续。如果你有一个可以在stax中写一个文件的程序,写很多也没什么区别。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-09-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-10-05
    • 1970-01-01
    相关资源
    最近更新 更多