【发布时间】:2019-05-19 17:21:34
【问题描述】:
我正在尝试使用 wget 和 grep 提取单个页面中的所有超链接,我发现这段代码使用 PCRE 来获取所有超链接。
但我对 regex 或 html 并不是很熟悉,所以我真的很想知道这是否是一种可行的方法,或者是否有更好的方法。 我也有一个问题。你真的需要转义引号吗?我测试了几次,但似乎没有什么不同。
wget https://google.com -q -O - | grep -Po '(?<=href=\")[^\"]*'
任何帮助将不胜感激!
【问题讨论】:
-
嗯,它似乎确实有效。有什么问题?
-
@Jack 我只是模糊地担心这是否适用于所有用例。由于我真的不太了解 HTML,我只是希望有人能确认这是否正确完成
-
不,它不会在所有情况下都有效,并且没有正确完成。谷歌 xmlstarlet 和 xmllint 来查看一些可靠解析 XML 的工具(或用它们标记这个问题)