【发布时间】:2018-04-06 20:11:50
【问题描述】:
$ lynx --dump -listonly index.html
示例结果:
References
Visible links
1. http://lynx.invisible-island.net/
2. http://lynx.invisible-island.net/lynx.html
3. http://lynx.invisible-island.net/current/index.html
我想要做的是删除包含的 1. 2. 和 3.“参考”和“可见链接”文本。
想要的结果:
http://lynx.invisible-island.net/
http://lynx.invisible-island.net/lynx.html
http://lynx.invisible-island.net/current/index.html
【问题讨论】:
-
您为自己尝试了什么?发布它们,即使它们是微不足道的
-
您可以通过管道将其发送到
sed以删除初始数字。 -
sed、awk 和 grep 都让我感到困惑,我已经解决了这个问题,但它涉及将 index.html 粘贴到 browserling.com/tools/extract-urls 。我将来必须这样做,并希望将其放入一个不错的单个脚本中。
-
@CaucasianMalaysian 我认为你的意思是正则表达式让你感到困惑。
-
@CaucasianMalaysian:如果您打算使用它们,建议您遵循一个很好的教程来学习如何使用它们。现在,您可以将输出作为
lynx .. | sed -n 's/^[[:digit:]]\.[[:space:]]\(.*\)$/\1/p'传递给sed,或者对于大于一位的数字,使用sed -n 's/^\([[:digit:]]*\)\.[[:space:]]\(.*\)$/\2/p'
标签: bash url formatting sh lynx