【发布时间】:2020-05-26 10:33:04
【问题描述】:
我想删除 html 文件的所有标签,下面是我的代码。我的t
标题
hinking 是:遇到< 标记时,将所有行连接起来,并进行替换。但是代码不起作用?有任何想法吗?谢谢一百万。
sed '/</{
:loop
N
b loop
s/<[^<]*>//g
}
' index.html
【问题讨论】:
-
这能回答你的问题吗? Sed remove tags from html file
-
处理 html、json 或 xml 不是
sed或awk的工作。没有内置语言验证。可以有没有结束标签的标签,如</br>等。你需要一个像html2text这样的 html 实用程序