【问题标题】:How to remove numbering from "lynx --dump -listonly"如何从“lynx --dump -listonly”中删除编号
【发布时间】:2018-04-06 20:11:50
【问题描述】:
$ lynx --dump -listonly index.html

示例结果:

References

Visible links
1. http://lynx.invisible-island.net/
2. http://lynx.invisible-island.net/lynx.html
3. http://lynx.invisible-island.net/current/index.html

我想要做的是删除包含的 1. 2. 和 3.“参考”和“可见链接”文本。

想要的结果:

http://lynx.invisible-island.net/
http://lynx.invisible-island.net/lynx.html
http://lynx.invisible-island.net/current/index.html

【问题讨论】:

  • 您为自己尝试了什么?发布它们,即使它们是微不足道的
  • 您可以通过管道将其发送到sed 以删除初始数字。
  • sed、awk 和 grep 都让我感到困惑,我已经解决了这个问题,但它涉及将 index.html 粘贴到 browserling.com/tools/extract-urls 。我将来必须这样做,并希望将其放入一个不错的单个脚本中。
  • @CaucasianMalaysian 我认为你的意思是正则表达式让你感到困惑。
  • @CaucasianMalaysian:如果您打算使用它们,建议您遵循一个很好的教程来学习如何使用它们。现在,您可以将输出作为lynx .. | sed -n 's/^[[:digit:]]\.[[:space:]]\(.*\)$/\1/p' 传递给sed,或者对于大于一位的数字,使用sed -n 's/^\([[:digit:]]*\)\.[[:space:]]\(.*\)$/\2/p'

标签: bash url formatting sh lynx


【解决方案1】:

你可以使用 Lynx 的 -nonumbers 选项

lynx --dump -nonumbers -listonly http://lynx.invisible-island.net/

【讨论】:

    【解决方案2】:

    试试:

    lynx --dump -listonly index.html | sed -r 's/^[0-9]+\. //'
    

    【讨论】:

      【解决方案3】:

      我有这个输入,每行顶部都有空格:

       1. http://lynx.invisible-island.net/
       2. http://lynx.invisible-island.net/lynx.html
      

      然后,取消第 1 到 3 行:

      lynx --dump -listonly http://lynx.invisible-island.net/ | sed -E 's/^ ?+[0-9]+\. //; 1,3d'
      

      输出

      http://lynx.invisible-island.net/
      http://lynx.invisible-island.net/lynx.html
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-05-08
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多