如何从“lynx --dump -listonly”中删除编号答案

【问题标题】：How to remove numbering from "lynx --dump -listonly"如何从“lynx --dump -listonly”中删除编号
【发布时间】：2018-04-06 20:11:50
【问题描述】：

$ lynx --dump -listonly index.html

示例结果：

References

Visible links
1. http://lynx.invisible-island.net/
2. http://lynx.invisible-island.net/lynx.html
3. http://lynx.invisible-island.net/current/index.html

我想要做的是删除包含的 1. 2. 和 3.“参考”和“可见链接”文本。

想要的结果：

http://lynx.invisible-island.net/
http://lynx.invisible-island.net/lynx.html
http://lynx.invisible-island.net/current/index.html

【问题讨论】：

您为自己尝试了什么？发布它们，即使它们是微不足道的
您可以通过管道将其发送到sed 以删除初始数字。
sed、awk 和 grep 都让我感到困惑，我已经解决了这个问题，但它涉及将 index.html 粘贴到 browserling.com/tools/extract-urls 。我将来必须这样做，并希望将其放入一个不错的单个脚本中。
@CaucasianMalaysian 我认为你的意思是正则表达式让你感到困惑。
@CaucasianMalaysian：如果您打算使用它们，建议您遵循一个很好的教程来学习如何使用它们。现在，您可以将输出作为lynx .. | sed -n 's/^[[:digit:]]\.[[:space:]]$.*$$/\1/p' 传递给sed，或者对于大于一位的数字，使用sed -n 's/^$[[:digit:]]*$\.[[:space:]]$.*$$/\2/p'

标签： bash url formatting sh lynx

【解决方案1】：

你可以使用 Lynx 的 -nonumbers 选项

lynx --dump -nonumbers -listonly http://lynx.invisible-island.net/

【讨论】：

【解决方案2】：

试试：

lynx --dump -listonly index.html | sed -r 's/^[0-9]+\. //'

【讨论】：

【解决方案3】：

我有这个输入，每行顶部都有空格：

 1. http://lynx.invisible-island.net/
 2. http://lynx.invisible-island.net/lynx.html

然后，取消第 1 到 3 行：

lynx --dump -listonly http://lynx.invisible-island.net/ | sed -E 's/^ ?+[0-9]+\. //; 1,3d'

输出

http://lynx.invisible-island.net/
http://lynx.invisible-island.net/lynx.html

【讨论】：