【发布时间】:2011-12-21 15:43:33
【问题描述】:
我需要对 html 文件执行多项操作,例如删除特定标签或删除属性。我决定使用 HTML Parser,一个 java 库: http://htmlparser.sourceforge.net/
首先,我要删除所有样式标签。通过这样做,我设法获得了一个包含所有样式标签的 NodeList:
Parser parser = new Parser (url);
NodeList list = parser.parse (null);
NodeList styles = list.extractAllNodesThatMatch (new TagNameFilter ("STYLE"), true);
现在我不知道如何从整个节点列表中删除此样式属性。我必须获取整个列表吗?
之后,我希望能够删除标签内的所有属性或仅删除 alt 属性。有没有自动完成的方法?
【问题讨论】:
-
如果你能保证你的 HTML 是 XML 有效的(如果需要通过 HTML Purifier 或类似的东西)你应该使用 XML 解析器,因为它们更强大(能够使用 XPath 将让你的许多任务变得微不足道)。
-
+1 表示写得很好的第一个问题。很少能够阅读和理解用户的第一个问题。干得好,祝 Stack Overflow 好运!