【发布时间】:2021-08-06 08:43:21
【问题描述】:
早安
我想使用 Apache POI 将 HTML 作为 altChunk 添加到 DOCX 文件中。为此,我遵循了这个 stackoverflow 答案
How to add an altChunk element to a XWPFDocument using Apache POI
除了我的语言(意大利语)的特殊字符出现问题外,一切都完美无缺。
我的情况如下:我有一个外部 html 文件。要导入,我使用以下代码
byte[] inputBytes = Files.readAllBytes(Paths.get("testo.html"));
String xhtml = new String(inputBytes, StandardCharsets.UTF_8);
然后我使用 stackoverflow 答案中提供的代码生成 docx。
如果我解压缩“word”文件夹下的 .docx,则我有正确的文件“chunk1.html”。
如果我打开它,则会正确报告特殊字符,例如
L'attività in oggetto è:
但是当我在 Word 中打开文档时,我看到了这个
L'attività in oggetto è:
是否有我错过的相同 Microsoft 配置?
创建块时是否需要指定字符集?
【问题讨论】:
-
HTML文件中文字的编码是什么?
标签: ms-word apache-poi