【问题标题】:Convert Word to HTML with Apache POI使用 Apache POI 将 Word 转换为 HTML
【发布时间】:2023-03-14 04:38:02
【问题描述】:

我看到有一个叫WordToHtmlConverter的转换器,但是没有暴露出处理方法。我应该如何传递 doc 文件并获取 HTML 文件(或 OutputStream)?

【问题讨论】:

  • 这是您的要求吗? stackoverflow.com/questions/227236/…
  • 这不是...在 Apache POI 中,他们在包 org.apache.poi.hwpf.converter 中有一个新类来处理这个问题...但是找不到任何关于如何使用它们的教程.

标签: java apache-poi


【解决方案1】:

这段代码现在可以为我工作了!

    HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("D:\\temp\\seo\\1.doc"));

    WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
            DocumentBuilderFactory.newInstance().newDocumentBuilder()
                    .newDocument());
    wordToHtmlConverter.processDocument(wordDocument);
    Document htmlDocument = wordToHtmlConverter.getDocument();
    ByteArrayOutputStream out = new ByteArrayOutputStream();
    DOMSource domSource = new DOMSource(htmlDocument);
    StreamResult streamResult = new StreamResult(out);

    TransformerFactory tf = TransformerFactory.newInstance();
    Transformer serializer = tf.newTransformer();
    serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
    serializer.setOutputProperty(OutputKeys.INDENT, "yes");
    serializer.setOutputProperty(OutputKeys.METHOD, "html");
    serializer.transform(domSource, streamResult);
    out.close();

    String result = new String(out.toByteArray());
    System.out.println(result);

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-10-21
    • 2012-11-28
    • 1970-01-01
    • 2011-09-06
    • 1970-01-01
    • 1970-01-01
    • 2013-07-23
    • 1970-01-01
    相关资源
    最近更新 更多