【问题标题】:I want to remove html tags with sed, but my script does not work我想用 sed 删除 html 标签,但我的脚本不起作用
【发布时间】:2020-05-26 10:33:04
【问题描述】:

我想删除 html 文件的所有标签,下面是我的代码。我的t

标题

hinking 是:遇到< 标记时,将所有行连接起来,并进行替换。但是代码不起作用?有任何想法吗?谢谢一百万。

sed '/</{
:loop
N
b loop
s/<[^<]*>//g
}
' index.html

【问题讨论】:

  • 这能回答你的问题吗? Sed remove tags from html file
  • 处理 html、json 或 xml 不是 sedawk 的工作。没有内置语言验证。可以有没有结束标签的标签,如&lt;/br&gt; 等。你需要一个像 html2text 这样的 html 实用程序

标签: shell sed


【解决方案1】:

猜测...试图了解背后的大局...

您需要将 HTML 转换为文本 :)

那么,如何以一种干净且正确的方式做到这一点?

html2text index.html

查看http://www.mbayer.de/html2text/

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-06-19
    • 2014-12-28
    • 2020-04-09
    • 1970-01-01
    • 1970-01-01
    • 2014-11-16
    • 1970-01-01
    • 2023-03-15
    相关资源
    最近更新 更多