【问题标题】:Grep for a string that ends with specific character以特定字符结尾的字符串的 Grep
【发布时间】:2014-10-21 22:28:10
【问题描述】:

有没有办法使用扩展正则表达式来查找以字符串结尾的特定模式。

我的意思是,我想匹配前 3 行而不是最后一行:

file_number_one.pdf # comment
file_number_two.pdf # not interesting
testfile_number____three.pdf # some other stuff
myfilezipped.pdf.zip some comments and explanations

我知道在 grep 中,元字符 $ 匹配行尾,但我对匹配行尾不感兴趣,而是匹配字符串尾。 grep 中的分组很奇怪,我还不太了解。

我尝试了组匹配,实际上我有一个类似的正则表达式,但它不适用于 grep -E

(\w+).pdf$

有没有办法在 grep/egrep 中进行字符串结尾匹配?

【问题讨论】:

    标签: regex bash grep


    【解决方案1】:

    您的示例还可以匹配字符串后的空格:

    grep -E '\.pdf ' input.txt
    

    你所说的“字符串”类似于 grep 所说的“单词”。 Word 是一系列字母数字字符。单词的好处是您可以将单词结尾与特殊的\> 匹配,它匹配具有零字符长度行进的单词结尾。这也匹配在行尾。但是单词字符不能更改,并且不包含标点符号,所以我们不能使用它。

    如果你也需要在行尾匹配,在单词后面没有空格的地方,使用:

    grep -E '\.pdf |\.pdf$' input.txt
    

    包括文件名后面的字符不是空格字符'',而是其他空格,如制表符,\t,或名称后直接跟注释的情况,以@987654326开头@,使用:

    grep -E '\.pdf[[:space:]#]|\.pdf$' input.txt
    

    我也会说明单词边界的匹配,因为那将是一个完美的解决方案,只是我们不能在这里使用它,因为我们不能更改被视为单词一部分的字符集。

    输入包含 foo 作为单独的词,并且作为较长词的一部分,其中 foo 不在词的末尾,因此不在词的边界:

    $ printf 'foo bar\nfoo.bar\nfoobar\nfoo_bar\nfoo\n'
    foo bar
    foo.bar
    foobar
    foo_bar
    foo
    

    现在,为了匹配单词的边界,我们可以使用\<作为开头,\>匹配结尾:

    $ printf 'foo bar\nfoo.bar\nfoobar\nfoo_bar\nfoo\n' | grep 'foo\>'
    foo bar
    foo.bar
    foo
    

    注意_ 是如何匹配为单词字符的 - 但除此之外,单词字符只是字母数字,[a-zA-Z0-9]
    还要注意foo 和行尾是如何匹配的——在只包含foo 的行中。行尾不需要特殊情况。

    【讨论】:

    • 我会说这与我正在寻找的解决方案非常相似。你能给我一个与\>匹配的单词结尾的例子吗?
    • 我已经更新了答案,也显示了单词边界匹配。
    【解决方案2】:

    你可以使用\>操作符

    grep 'word\>' fileName
    

    【讨论】:

      【解决方案3】:

      您需要在您的正则表达式中转义 .。此正则表达式将匹配以 .pdf 结尾的任何内容(并且仅匹配以 .pdf 结尾的内容):

      .*\.pdf$
      

      【讨论】:

      • OP 想要匹配以 .pdf 结尾的行
      【解决方案4】:

      积极的前瞻最适合这种东西。试一试:

      grep -P "(^\w+\.pdf)(?=\s)" file
      

      我假设文件名总是在行首。

      【讨论】:

      • 我试过这个,但它不起作用。它可能在其他环境中工作正则表达式,但我认为它不适合 grep 。它只是不匹配任何东西。