【发布时间】:2016-05-17 20:46:18
【问题描述】:
我有一个未格式化的 html 文件,我需要在其中获取匹配前的 href 链接...我的 html 文件如下所示:
<a href="url1.com">Bla Bla Bla [Test1]</a><a href="url2.com">Bla Bla Bla [Test2]</a><a href="url3.com">Bla Bla Bla [Test3]</a>
所以现在我需要在 [Test2] 模式之前获取 href 内容,并且预期的返回是 url2.com。
我不是 sed 或 awk 专家,我认为纯 grep 命令不可能。
我可以使用下面的命令知道我的partern是否存在于文件中,但我不知道如何获取以前的href。
grep -o '\[S06E04\]' file.html
非常感谢任何帮助。
谢谢
【问题讨论】:
-
一般来说,使用需要行分隔数据的工具来处理非行分隔的数据(例如 XML)并不是一个好主意。请改用
xmlstarlet之类的东西。 -
@MichaelVehrs : html 看起来像是缩小了...