【问题标题】：Strict HTML parsing in JavaScriptJavaScript 中的严格 HTML 解析
【发布时间】：2012-03-10 08:39:02
【问题描述】：

在 Google Chrome (Canary) 上，似乎没有字符串可以使 DOM 解析器失败。我正在尝试解析一些 HTML，但如果 HTML 不完全、100% 有效，我希望它显示错误。我已经尝试了明显的：

var newElement = document.createElement('div');
newElement.innerHTML = someMarkup; // Might fail on IE, never on Chrome.

我也试过this question中的方法。即使是我能生成的最无效的标记，也不会因无效标记而失败。

那么，至少有什么方法可以在 Google Chrome 中“严格”解析 HTML 吗？我不想求助于自己标记它或使用外部验证实用程序。如果没有其他选择，严格的 XML 解析器就可以了，但某些元素不需要 HTML 中的结束标记，最好不要失败。

【问题讨论】：

"strict" in JavaScript 有一个specific meaning，所以我编辑了你的问题的标题
"...某些元素在 HTML 中不需要结束标记..." 一些元素 don't require opening tags 也一样。
用 HTML doctype strict 试过了吗？
@powtac：我正在尝试解析 HTML 片段 - 没有 DTD。
@T.J.Crowder：好的-但问题仍然存在:)

标签： javascript html html-parsing

【解决方案1】：

使用DOMParser分两步检查文档：

通过将文档解析为 XML 来验证文档是否符合 XML。
将字符串解析为 HTML。这需要modification on the DOMParser。
循环遍历每个元素，检查 DOM 元素是否是HTMLUnknownElement 的实例。为此，getElementsByTagName('*') 非常适合。
（如果要严格解析文档，则必须递归循环遍历每个元素，并记住该元素在该位置是否为allowed to be placed。例如<map>中的<area>）

演示：http://jsfiddle.net/q66Ep/1/

/* DOM parser for text/html, see https://stackoverflow.com/a/9251106/938089 */
;(function(DOMParser) {"use strict";var DOMParser_proto=DOMParser.prototype,real_parseFromString=DOMParser_proto.parseFromString;try{if((new DOMParser).parseFromString("", "text/html"))return;}catch(e){}DOMParser_proto.parseFromString=function(markup,type){if(/^\s*text\/html\s*(;|$)/i.test(type)){var doc=document.implementation.createHTMLDocument(""),doc_elt=doc.documentElement,first_elt;doc_elt.innerHTML=markup;first_elt=doc_elt.firstElementChild;if (doc_elt.childElementCount===1&&first_elt.localName.toLowerCase()==="html")doc.replaceChild(first_elt,doc_elt);return doc;}else{return real_parseFromString.apply(this, arguments);}};}(DOMParser));

/*
 * @description              Validate a HTML string
 * @param       String html  The HTML string to be validated 
 * @returns            null  If the string is not wellformed XML
 *                    false  If the string contains an unknown element
 *                     true  If the string satisfies both conditions
 */
function validateHTML(html) {
    var parser = new DOMParser()
      , d = parser.parseFromString('<?xml version="1.0"?>'+html,'text/xml')
      , allnodes;
    if (d.querySelector('parsererror')) {
        console.log('Not welformed HTML (XML)!');
        return null;
    } else {
        /* To use text/html, see https://stackoverflow.com/a/9251106/938089 */
        d = parser.parseFromString(html, 'text/html');
        allnodes = d.getElementsByTagName('*');
        for (var i=allnodes.length-1; i>=0; i--) {
            if (allnodes[i] instanceof HTMLUnknownElement) return false;
        }
    }
    return true; /* The document is syntactically correct, all tags are closed */
}

console.log(validateHTML('<div>'));  //  null, because of the missing close tag
console.log(validateHTML('<x></x>'));// false, because it's not a HTML element
console.log(validateHTML('<a></a>'));//  true, because the tag is closed,
                                     //       and the element is a HTML element

请参阅revision 1 of this answer，了解不使用 DOMParser 的 XML 验证的替代方法。

注意事项

当前方法完全忽略文档类型，以进行验证。
此方法为<input type="text"> 返回null，而它是有效的HTML5（因为标签未关闭）。
未检查一致性。

【讨论】：

用DOMParser()/ActiveXObject('Microsoft.XMLDOM')解析XML应该更容易。您的构造不会针对 DTD（或 XML 模式）进行验证，它只会尝试将此字符串解析为 XML（如果失败，则会引发格式不正确的错误）。此外，至少 Firefox 使用了非验证解析器。
您应该将您的函数重命名为 parseXHTML 或类似名称。解析 SGMLDocument（或 HTML5Document）并不是那么简单。您的解决方案将在 <!DOCTYPE html ...><title></title><p>foo 等有效 HTML 字符串处返回 false，在 <p><li></li></p> 等无效字符串处返回 true。 document.querySelectorAll is unbelievable slow compared to document.getElementsByTagName
@Saxoier 我已经在答案的顶部解决了这两种无能。我还在答案的底部添加了它们，以防你看不到它。至于 QSA 与 GTA，这是真的。
我知道你写在最上面。但是你为什么称这个函数为validateHTML。除了 HTML 之外，该函数也不能验证 XML（或 XHTML）。
@Saxoier 正如注释 2 所指出的，这可以用作 HTML 验证的基础。但是，我不会编写和测试完整的验证器，因为这很耗时，而且不会会有什么特别的。