【问题标题】:Match two strings in one line with grep用 grep 匹配一行中的两个字符串
【发布时间】:2011-05-28 02:29:41
【问题描述】:

我正在尝试使用grep 来匹配包含两个不同字符串的行。我尝试了以下方法,但这匹配包含 string1 string2 的行,这不是我想要的。

grep 'string1\|string2' filename

那么我该如何匹配grep 仅包含两个字符串的行?

【问题讨论】:

标签: regex linux string grep


【解决方案1】:

正则表达式中的| 运算符表示或。也就是说 string1 或 string2 将匹配。你可以这样做:

grep 'string1' filename | grep 'string2'

这会将第一个命令的结果通过管道传输到第二个 grep。那应该只给你匹配两者的行。

【讨论】:

  • 您的陈述是真实的,但不要回答 OP 问题
  • 这确实回答了这个问题,这确实是大多数人的写作方式。
【解决方案2】:

你可以试试这样的:

(pattern1.*pattern2|pattern2.*pattern1)

【讨论】:

    【解决方案3】:

    你应该有这样的grep

    $ grep 'string1' file | grep 'string2'
    

    【讨论】:

    • 执行逻辑与。 OP 想要一个逻辑 OR。
    • @BenWheeler:来自问题:“那么我如何只匹配包含两个字符串的行?”
    【解决方案4】:

    你可以使用

    grep 'string1' filename | grep 'string2'
    

    或者

    grep 'string1.*string2\|string2.*string1' filename
    

    【讨论】:

    • @AlexanderN 确实我不能让它与多行一起使用,这太奇怪了它被接受了..
    • 仅当 'string1' 和 'string2' 在同一行时才有效。如果您想查找带有“string1”或“string2”的行,请参阅 user45949 的答案。
    • 第一个选项:将一个 grep 传递到第二个不会产生 OR 结果,而是产生 AND 结果。
    • 我用过grep -e "string1" -e "string2"
    • 这个问题清楚地要求找到两个字符串 (AND),而这个答案正是提供了这个。
    【解决方案5】:

    如果您有一个 grep 和一个 -P 选项用于有限的 perl 正则表达式,您可以使用

    grep -P '(?=.*string1)(?=.*string2)'
    

    它具有处理重叠字符串的优点。将perl 用作grep 会更直接一些,因为您可以更直接地指定 and 逻辑:

    perl -ne 'print if /string1/ && /string2/'
    

    【讨论】:

    • 最佳答案。 Shell 非常简单快捷,但是一旦模式变得复杂,您应该使用 Python 或 Perl(或 Awk)。不要试图证明它可以在纯外壳中完成(无论这些天意味着什么)。提醒人们,这些工具可用于“单线”语法,将 dibble 嵌入到现有的 shell 脚本中。
    【解决方案6】:

    我想这就是你要找的东西:

    grep -E "string1|string2" filename
    

    我认为答案是这样的:

    grep 'string1.*string2\|string2.*string1' filename
    

    仅匹配两者都存在的情况,而不是一个或另一个或两者都存在的情况。

    【讨论】:

    • grep -e "string1" -e "string2" filename 不会这样做吗?
    • 这是 grep 字符串 1 或字符串 2 的方法。问题清楚地表明他们正在寻找 string1 AND string2。
    • 很确定这个问题非常准确:How do I match lines that contains *both* strings?
    • 可以在同一行打印吗?
    • 为什么这个答案还在?这不是问题的答案。
    【解决方案7】:

    多行匹配:

    echo -e "test1\ntest2\ntest3" |tr -d '\n' |grep "test1.*test3"
    

    echo -e "test1\ntest5\ntest3" >tst.txt
    cat tst.txt |tr -d '\n' |grep "test1.*test3\|test3.*test1"
    

    我们只需要删除换行符就可以了!

    【讨论】:

      【解决方案8】:

      在任何地方以任意顺序搜索包含所有单词的文件:

      grep -ril \'action\' | xargs grep -il \'model\' | xargs grep -il \'view_type\'
      

      第一个 grep 开始递归搜索 (r),忽略大小写 (i) 并列出(打印输出)匹配的文件的名称 (l) 一个术语 ('action'单引号)出现在文件中的任何位置。

      随后的 greps 搜索其他术语,保持不区分大小写并列出匹配的文件。

      您将获得的最终文件列表将包含这些术语,在文件中的任何位置以任意顺序排列。

      【讨论】:

      • 同意!我只是注意到我必须给 xargs 一个“-d '\n'”来处理带空格的文件名。这在 Linux 上对我有用:grep -ril 'foo' | xargs -d '\n' grep -il 'bar'
      【解决方案9】:

      你的方法几乎很好,只是缺少 -w

      grep -w 'string1\|string2' filename
      

      【讨论】:

      • 至少在 OS-X 和 FreeBSD 上它确实有效!我的猜测是你在做别的事情(OP 没有定义 - 希望你没有对除你之外的许多用户投反对票)。
      • 我在 OS-X 上。也许我没有正确地做到这一点?看看我做了什么:i.imgur.com/PFVlVAG.png
      • 奇数。我预计不同之处在于没有 grep 到文件中,但是,如果我用你的 ls 管道我的方法,我会得到你没有的结果:imgur.com/8eTt3Ak.png - 两者都在 OS-X 10.9.5 ("grep (BSD grep) 2.5.1-FreeBSD") 和 FreeBSD 10 ("grep (GNU grep) 2.5.1-FreeBSD")。我很好奇你的grep -V 是什么。
      • 你的例子对我有用:i.imgur.com/K8LM69O.png 所以不同的是这个方法不提取子字符串,它们必须自己是完整的字符串。我猜你需要在 grep 中构造正则表达式来搜索子字符串。像这样的东西:grep -w 'regexp1\|regexp2' filename
      • OP 通过匹配 string1 or string2 显示了一个示例,并询问如何匹配包含 both 字符串的行。这个例子仍然产生 OR。
      【解决方案10】:

      将您要 grep 的字符串放入文件中

      echo who    > find.txt
      echo Roger >> find.txt
      echo [44][0-9]{9,} >> find.txt
      

      然后使用 -f 搜索

      grep -f find.txt BIG_FILE_TO_SEARCH.txt 
      

      【讨论】:

        【解决方案11】:

        找到仅以 6 个空格开头并以以下结尾的行:

         cat my_file.txt | grep
         -e '^      .*(\.c$|\.cpp$|\.h$|\.log$|\.out$)' # .c or .cpp or .h or .log or .out
         -e '^      .*[0-9]\{5,9\}$' # numers between 5 and 9 digist
         > nolog.txt
        

        【讨论】:

          【解决方案12】:
          grep '(string1.*string2 | string2.*string1)' filename
          

          将与 string1 和 string2 以任何顺序排列

          【讨论】:

          • 这与至少前两个答案有何不同?
          【解决方案13】:

          我经常遇到和你一样的问题,我只是写了一段脚本:

          function m() { # m means 'multi pattern grep'
          
              function _usage() {
              echo "usage: COMMAND [-inH] -p<pattern1> -p<pattern2> <filename>"
              echo "-i : ignore case"
              echo "-n : show line number"
              echo "-H : show filename"
              echo "-h : show header"
              echo "-p : specify pattern"
              }
          
              declare -a patterns
              # it is important to declare OPTIND as local
              local ignorecase_flag  filename linum header_flag colon result OPTIND
          
              while getopts "iHhnp:" opt; do
              case $opt in
                  i)
                  ignorecase_flag=true ;;
                  H)
                  filename="FILENAME," ;;
                  n)
                  linum="NR," ;;
                  p)
                  patterns+=( "$OPTARG" ) ;;
                  h)
                  header_flag=true ;;
                  \?)
                  _usage
                  return ;;
              esac
              done
          
              if [[ -n $filename || -n $linum ]]; then
              colon="\":\","
              fi
          
              shift $(( $OPTIND - 1 ))
          
              if [[ $ignorecase_flag == true ]]; then
              for s in "${patterns[@]}"; do
                      result+=" && s~/${s,,}/"
              done
              result=${result# && }
              result="{s=tolower(\$0)} $result"
              else
              for s in "${patterns[@]}"; do
                      result="$result && /$s/"
              done
              result=${result# && }
              fi
          
              result+=" { print "$filename$linum$colon"\$0 }"
          
              if [[ ! -t 0 ]]; then       # pipe case
              cat - | awk "${result}"
              else
              for f in "$@"; do
                  [[ $header_flag == true ]] && echo "########## $f ##########"
                  awk "${result}" $f
              done
              fi
          }
          

          用法:

          echo "a b c" | m -p A 
          echo "a b c" | m -i -p A # a b c
          

          如果你喜欢,你可以把它放在 .bashrc 中。

          【讨论】:

            【解决方案14】:

            假设我们需要在文件 testfile 中查找多个单词的计数。 有两种方法可以解决

            1) 使用带有正则表达式匹配模式的 grep 命令

            grep -c '\<\(DOG\|CAT\)\>' testfile
            

            2) 使用 egrep 命令

            egrep -c 'DOG|CAT' testfile 
            

            使用 egrep,您无需担心表达式,只需通过管道分隔符分隔单词。

            【讨论】:

              【解决方案15】:

              正如人们建议的 perl 和 python 以及复杂的 shell 脚本,这里有一个简单的 awk 方法:

              awk '/string1/ && /string2/' filename
              

              查看 cmets 后接受的答案:不,这不是多行;但这也不是问题作者所要求的。

              【讨论】:

                【解决方案16】:
                grep -i -w 'string1\|string2' filename
                

                这适用于完全匹配单词和匹配不区分大小写的单词,因为使用了 -i

                【讨论】:

                  【解决方案17】:

                  不要尝试为此使用 grep,而是使用 awk。要在 grep 中匹配 2 个正则表达式 R1 和 R2,您会认为它是:

                  grep 'R1.*R2|R2.*R1'
                  

                  在 awk 中会是:

                  awk '/R1/ && /R2/'
                  

                  但是如果R2R1 重叠或者是R1 的子集怎么办?该 grep 命令根本不起作用,而 awk 命令则起作用。假设您要查找包含 theheat 的行:

                  $ echo 'theatre' | grep 'the.*heat|heat.*the'
                  $ echo 'theatre' | awk '/the/ && /heat/'
                  theatre
                  

                  您必须为此使用 2 个 grep 和一个管道:

                  $ echo 'theatre' | grep 'the' | grep 'heat'
                  theatre
                  

                  当然,如果您实际上要求它们分开,您总是可以在 awk 中编写与在 grep 中使用的相同的正则表达式,并且还有其他 awk 解决方案不涉及在每个可能的序列中重复正则表达式。

                  暂且不说,如果您想扩展您的解决方案以匹配 3 个正则表达式 R1、R2 和 R3。在 grep 中,这将是这些糟糕的选择之一:

                  grep 'R1.*R2.*R3|R1.*R3.*R2|R2.*R1.*R3|R2.*R3.*R1|R3.*R1.*R2|R3.*R2.*R1' file
                  grep R1 file | grep R2 | grep R3
                  

                  在 awk 中,它会是简洁、明显、简单、高效的:

                  awk '/R1/ && /R2/ && /R3/'
                  

                  现在,如果您真的想匹配文字字符串 S1 和 S2 而不是正则表达式 R1 和 R2,该怎么办?您根本无法在一次调用 grep 时做到这一点,您必须在调用 grep 之前编写代码来转义所有 RE 元字符:

                  S1=$(sed 's/[^^]/[&]/g; s/\^/\\^/g' <<< 'R1')
                  S2=$(sed 's/[^^]/[&]/g; s/\^/\\^/g' <<< 'R2')
                  grep 'S1.*S2|S2.*S1'
                  

                  或再次使用 2 个 grep 和一个管道:

                  grep -F 'S1' file | grep -F 'S2'
                  

                  这也是糟糕的选择,而使用 awk 你只需使用字符串运算符而不是正则表达式运算符:

                  awk 'index($0,S1) && index($0.S2)'
                  

                  现在,如果您想在一个段落而不是一行中匹配 2 个正则表达式怎么办?不能在 grep 中完成,在 awk 中微不足道:

                  awk -v RS='' '/R1/ && /R2/'
                  

                  跨整个文件怎么样?再一次不能在 grep 和 awk 中完成(这次我使用 GNU awk 进行多字符 RS 以求简洁,但它在任何 awk 中都没有更多代码,或者你可以选择一个你知道不会的控制字符在 RS 的输入中做同样的事情):

                  awk -v RS='^$' '/R1/ && /R2/'
                  

                  所以 - 如果你想在一行、段落或文件中查找多个正则表达式或字符串,那么不要使用 grep,使用 awk。

                  【讨论】:

                  • awk '/R1/ &amp;&amp; /R2/' 不区分大小写吗?
                  • @Hashim - 没有。要使 GNU awk 不区分大小写,您可以使用 awk -v IGNORECASE=1 '/R1/ &amp;&amp; /R2/' 和任何 awk awk '{x=toupper($0)} x~/R1/ &amp;&amp; x~/R2/'
                  【解决方案18】:

                  git grep

                  下面是使用git grep 和多种模式的语法:

                  git grep --all-match --no-index -l -e string1 -e string2 -e string3 file
                  

                  您还可以将模式与 Boolean 表达式组合,例如 --and--or--not

                  查看man git-grep 寻求帮助。


                  --all-match 给出多个模式表达式时,指定此标志以将匹配限制为具有匹配所有行的文件

                  --no-index 在当前目录中搜索非 Git 管理的文件。

                  -l/--files-with-matches/--name-only 只显示文件名。

                  -e 下一个参数是模式。默认是使用基本的正则表达式。

                  要考虑的其他参数:

                  --threads 要使用的 grep 工作线程数。

                  -q/--quiet/--silent不输出匹配的行;匹配时退出状态为 0。

                  要更改模式类型,您还可以使用-G/--basic-regexp(默认)、-F/--fixed-strings-E/--extended-regexp-P/--perl-regexp、@987654354 @ 等。

                  相关:

                  OR操作见:

                  【讨论】:

                  • 一直以为“git grep”只能在git仓库中运行。我不知道 --no-index 选项。感谢您指出!
                  【解决方案19】:

                  ripgrep

                  这里是使用rg的例子:

                  rg -N '(?P<p1>.*string1.*)(?P<p2>.*string2.*)' file.txt
                  

                  它是最快的 grepping 工具之一,因为它建立在 Rust's regex engine 之上,它使用有限自动机、SIMD 和积极的文字优化来使搜索速度非常快。

                  使用它,尤其是在处理大量数据时。

                  另请参阅GH-875 的相关功能请求。

                  【讨论】:

                  • 这个答案不太正确。命名的捕获组是不必要的,当string2 出现在string1 之前时,这不会处理这种情况。这个问题最简单的解决方案是rg string1 file.txt | rg string2
                  【解决方案20】:
                  grep ‘string1\|string2’ FILENAME 
                  

                  GNU grep 3.1 版

                  【讨论】:

                    【解决方案21】:

                    当两个字符串按顺序排列时,然后在grep 命令上放置一个模式:

                    $ grep -E "string1(?.*)string2" file
                    

                    如果以下行包含在名为Dockerfile 的文件中的示例:

                    FROM python:3.8 as build-python
                    FROM python:3.8-slim
                    

                    要获取包含字符串的行:FROM pythonas build-python,然后使用:

                    $ grep -E "FROM python:(?.*) as build-python" Dockerfile
                    

                    那么输出将只显示包含两个字符串的行:

                    FROM python:3.8 as build-python
                    

                    【讨论】:

                      猜你喜欢
                      • 2018-08-14
                      • 1970-01-01
                      • 1970-01-01
                      • 2014-03-03
                      • 1970-01-01
                      • 2015-08-17
                      • 2017-01-28
                      • 1970-01-01
                      • 1970-01-01
                      相关资源
                      最近更新 更多