【发布时间】:2012-02-17 13:13:40
【问题描述】:
我已经构建了一组脚本,其中一部分将 XML 文档从一个词汇表转换为另一个词汇表中的文档子集。
出于对我来说不透明但显然不可协商的原因,目标平台(基于 Java)要求输出文档在 XML 声明中包含“encoding="UTF-8"”,但其中包含一些特殊字符文本节点必须使用其十六进制 unicode 值进行编码 - 例如'”' 必须替换为 '”' 等等。我无法获得必须对哪些字符进行编码的明确列表,但它似乎不像“所有非 ASCII”那么简单。
目前,我有一个可怕的 VBScript 使用 ADODB 在处理后直接检查输出文件的每一行,并在必要时替换字符。这速度非常慢,而且不出所料,有些角色会被遗漏(因此被目标平台攻击)。
虽然我可能会浪费时间“改进”VBScript,但长期目标是完全摆脱它,我确信必须有一种更快、更准确的方法来实现这一点,最好是在 XSLT 阶段自己。
谁能提出任何富有成效的调查途径?
(编辑:我不相信字符映射是答案 - 我以前看过它们,除非我弄错了,因为我的输入可能包含 any unicode 字符,我需要一张包含所有这些的地图除了我不想编码的那些......)
【问题讨论】: