sed 从 html 文件中删除标签答案

【问题标题】：Sed remove tags from html filesed 从 html 文件中删除标签
【发布时间】：2013-11-21 14:01:33
【问题描述】：

我需要使用 sed 命令使用 bash 脚本从 html 中删除所有标签。我试过这个

sed -r 's/[\<][\/]?[a-zA-Z0-9\=\"\-\#\.\& ]+[\/]?[\>]//g' $1

还有这个

sed -r 's/[\<][\/]?[.]*[\/]?[\\]?[\>]//g' $1

但我还是想念一些东西，有什么建议吗？？

【问题讨论】：

【解决方案1】：

您可以使用众多HTML to text converters 之一，如果可能，使用Perl 正则表达式<.+?>，或者如果必须是sed，则使用<[^>]*>

sed -e 's/<[^>]*>//g' file.html

如果没有出错的余地，请改用 HTML 解析器。例如。当一个元素分布在两行时

<div
>Lorem ipsum</div>

这个正则表达式不起作用。

这个正则表达式由<、[^>]*、>三部分组成

更简单的正则表达式<.*> 将不起作用，因为它会搜索最长的匹配项，即输入行中最后一个关闭>。例如，当您在输入行中有多个标签时

<name>Olaf</name> answers questions.

将导致

回答问题。

而不是

Olaf 回答问题。

另请参阅Repetition with Star and Plus，尤其是Watch Out for The Greediness! 和以下部分，了解详细说明。

【讨论】：

工作就像一个魅力.. 我很讨厌 sed，所以你能解释一下 ]*> 位吗？
[^>] 是一个字符类，它匹配除> 之外的任何字符，* 表示重复匹配零次或多次。否则，<.*> 将从该行的第一个 < 匹配到最后一个 >，通常跨越多个标签。
完美，我需要使用grep -Ev "<.*>" 过滤掉 HTML 标签和其中的内容。谢谢。