【发布时间】:2009-12-26 13:09:10
【问题描述】:
我必须比较不同版本的 HTML 页面的格式和文本更改。不幸的是,创建它们的人/公司使用某种 HTML 编辑器,每次都重新包装所有 HTML(并添加大量空白),这使得很难区分它们。因此,我正在寻找一种工具(最好是 Java 库),它可以重新格式化我的 HTML,从而删除所有无关紧要的空格和换行符。
也就是说,在
<h1>First Headline</h1> <h2>Second headline</h2>
</h1> 和 <h2> 之间的空格应该被删除,但是在
<b>formatted</b> <i>text</i>
不能删除空格。我不关心 <pre>、<textarea> 或 <script> 块,也不关心可以改变行为的 CSS 空白属性 - 我只是在寻找一种解决方案,可以去除大部分不必要的空白(最好也离开空格多于少)。
(我已经折叠多个空格并在标签之前重新添加换行符而不是空格以使文本更具可读性 - 但仍然有太多情况,例如标题或表格单元格/行之间的新换行符打破了我的简单“解决方案”。)
【问题讨论】:
-
它是符合 DOM 的干净 HTML 吗?在这种情况下,您有更多选择。
-
它远非合规。不知道使用哪个(所见即所得)工具来创建和编辑文件,但 HTML 很糟糕(多个 head/body 标签,很多丢失的 和 等)。
-
别忘了像 this...
标签: java html whitespace