【问题标题】:Strict HTML parsing in JavaScriptJavaScript 中的严格 HTML 解析
【发布时间】:2012-03-10 08:39:02
【问题描述】:

在 Google Chrome (Canary) 上,似乎没有字符串可以使 DOM 解析器失败。我正在尝试解析一些 HTML,但如果 HTML 不完全、100% 有效,我希望它显示错误。我已经尝试了明显的:

var newElement = document.createElement('div');
newElement.innerHTML = someMarkup; // Might fail on IE, never on Chrome.

我也试过this question中的方法。即使是我能生成的最无效的标记,也不会因无效标记而失败。

那么,至少有什么方法可以在 Google Chrome 中“严格”解析 HTML 吗?我不想求助于自己标记它或使用外部验证实用程序。如果没有其他选择,严格的 XML 解析器就可以了,但某些元素不需要 HTML 中的结束标记,最好不要失败。

【问题讨论】:

  • "strict" in JavaScript 有一个specific meaning,所以我编辑了你的问题的标题
  • "...某些元素在 HTML 中不需要结束标记..." 一些元素 don't require opening tags 也一样。
  • 用 HTML doctype strict 试过了吗?
  • @powtac:我正在尝试解析 HTML 片段 - 没有 DTD。
  • @T.J.Crowder:好的-但问题仍然存在:)

标签: javascript html html-parsing


【解决方案1】:

使用DOMParser分两步检查文档:

  1. 通过将文档解析为 XML 来验证文档是否符合 XML。
  2. 将字符串解析为 HTML。这需要modification on the DOMParser
    循环遍历每个元素,检查 DOM 元素是否是HTMLUnknownElement 的实例。为此,getElementsByTagName('*') 非常适合。
    (如果要严格解析文档,则必须递归循环遍历每个元素,并记住该元素在该位置是否为allowed to be placed。例如<map>中的<area>

演示:http://jsfiddle.net/q66Ep/1/

/* DOM parser for text/html, see https://stackoverflow.com/a/9251106/938089 */
;(function(DOMParser) {"use strict";var DOMParser_proto=DOMParser.prototype,real_parseFromString=DOMParser_proto.parseFromString;try{if((new DOMParser).parseFromString("", "text/html"))return;}catch(e){}DOMParser_proto.parseFromString=function(markup,type){if(/^\s*text\/html\s*(;|$)/i.test(type)){var doc=document.implementation.createHTMLDocument(""),doc_elt=doc.documentElement,first_elt;doc_elt.innerHTML=markup;first_elt=doc_elt.firstElementChild;if (doc_elt.childElementCount===1&&first_elt.localName.toLowerCase()==="html")doc.replaceChild(first_elt,doc_elt);return doc;}else{return real_parseFromString.apply(this, arguments);}};}(DOMParser));

/*
 * @description              Validate a HTML string
 * @param       String html  The HTML string to be validated 
 * @returns            null  If the string is not wellformed XML
 *                    false  If the string contains an unknown element
 *                     true  If the string satisfies both conditions
 */
function validateHTML(html) {
    var parser = new DOMParser()
      , d = parser.parseFromString('<?xml version="1.0"?>'+html,'text/xml')
      , allnodes;
    if (d.querySelector('parsererror')) {
        console.log('Not welformed HTML (XML)!');
        return null;
    } else {
        /* To use text/html, see https://stackoverflow.com/a/9251106/938089 */
        d = parser.parseFromString(html, 'text/html');
        allnodes = d.getElementsByTagName('*');
        for (var i=allnodes.length-1; i>=0; i--) {
            if (allnodes[i] instanceof HTMLUnknownElement) return false;
        }
    }
    return true; /* The document is syntactically correct, all tags are closed */
}

console.log(validateHTML('<div>'));  //  null, because of the missing close tag
console.log(validateHTML('<x></x>'));// false, because it's not a HTML element
console.log(validateHTML('<a></a>'));//  true, because the tag is closed,
                                     //       and the element is a HTML element

请参阅revision 1 of this answer,了解不使用 DOMParser 的 XML 验证的替代方法。

注意事项

  • 当前方法完全忽略文档类型,以进行验证。
  • 此方法为&lt;input type="text"&gt; 返回null,而它是有效的HTML5(因为标签未关闭)。
  • 未检查一致性。

【讨论】:

  • DOMParser()/ActiveXObject('Microsoft.XMLDOM')解析XML应该更容易。您的构造不会针对 DTD(或 XML 模式)进行验证,它只会尝试将此字符串解析为 XML(如果失败,则会引发格式不正确的错误)。此外,至少 Firefox 使用了非验证解析器。
  • 您应该将您的函数重命名为 parseXHTML 或类似名称。解析 SGMLDocument(或 HTML5Document)并不是那么简单。您的解决方案将在 &lt;!DOCTYPE html ...&gt;&lt;title&gt;&lt;/title&gt;&lt;p&gt;foo 等有效 HTML 字符串处返回 false,在 &lt;p&gt;&lt;li&gt;&lt;/li&gt;&lt;/p&gt; 等无效字符串处返回 true。 document.querySelectorAll is unbelievable slow compared to document.getElementsByTagName
  • @Saxoier 我已经在答案的顶部解决了这两种无能。我还在答案的底部添加了它们,以防你看不到它。至于 QSA 与 GTA,这是真的。
  • 我知道你写在最上面。但是你为什么称这个函数为validateHTML。除了 HTML 之外,该函数也不能验证 XML(或 XHTML)。
  • @Saxoier 正如注释 2 所指出的,这可以用作 HTML 验证的基础。但是,我不会编写和测试完整的验证器,因为这很耗时,而且不会会有什么特别的。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-08-27
  • 2019-07-14
  • 2014-09-23
  • 1970-01-01
  • 2019-04-29
  • 2020-04-30
相关资源
最近更新 更多