【发布时间】:2019-08-07 12:42:39
【问题描述】:
为什么下面使用 DOMParser 会导致 HTML 与用作输入的 HTML 不同?它删除了 DOCTYPE 和顶级元素之间的空格,删除了文档元素和head 之间的空格,并在</body> 之前添加了一个换行符。
我已经在 Google Chrome、Firefox 和 Safari 中测试过;我还用JSoup 运行了类似的代码,得到了完全相同的结果。所以我很确定这不是一个错误。我目前的理论是,这是由某处规范中的某种深奥的解析规则引起的。但可能还有其他我误解的事情。
const html = `<!DOCTYPE html>
<html>
<head>
<title>1</title>
</head>
<body>
<div>
Hello, World!
</div>
</body>
</html>`;
const setText = function(id,string) {
document.getElementById(id).appendChild(document.createTextNode(string));
};
const documentToString = function(d) {
return Array.prototype.slice.call(d.childNodes).map(function(node) {
if (node.nodeType == node.ELEMENT_NODE) return node.outerHTML;
if (node.nodeType == node.DOCUMENT_TYPE_NODE) return new XMLSerializer().serializeToString(node);
throw new TypeError("" + node);
}).join("");
};
setText("raw", html);
var parsed = new DOMParser().parseFromString(html,"text/html");
setText("parsed", parsed.documentElement.outerHTML);
setText("converted", documentToString(parsed));
setText("xmlserializer", new XMLSerializer().serializeToString(parsed));
#raw, #parsed, #converted, #xmlserializer { white-space: pre; font-family: monospace; }
h1 { font-size: 110%; font-weight: bold; font-family: sans-serif; }
<body>
<h1>Raw string</h1>
<div id="raw"></div>
<h1>Parsed top-level element</h1>
<div id="parsed"></div>
<h1>Using a document-to-string converter</h1>
<div id="converted"></div>
<h1>From XMLSerializer</h1>
<div id="xmlserializer"></div>
</body>
【问题讨论】:
-
标签之间的空格在语法上并不重要。一百万个空格等于一个空格。
-
“但在很多情况下,人们希望保留格式” - 那么,就必须在文本级别而不是 DOM 上进行操作级别:-)
-
XML DOM 解析器通常准确地保留空白,作为其他节点之间的纯空白文本节点。解析文档然后对其进行序列化将返回相同的字符串。无论如何,为什么解析器插入空格(在文档正文的末尾)?
-
而且,对于那些说“空白无关紧要”的人来说,解析器并不是要删除空白。它主要是保留它,但是在两个特定的地方,每个实现都在同一个地方删除一个纯空格文本节点,每个实现都在同一个地方插入一个纯空格文本节点。
-
我想知道这有什么问题,我的意思是你已经在代码“exhibit a”中向我们展示了你的意思,关于 dom 的序列化看起来与一个人类读者,但我想知道问题是什么。
标签: javascript html domparser