【问题标题】:Search substring in a string using regex使用正则表达式在字符串中搜索子字符串
【发布时间】:2019-10-17 20:13:39
【问题描述】:

我正在尝试在字符串中搜索包含在ArrayList(terms_1pers) 中的一组单词,并且由于前提条件是搜索单词之前和之后不应该有字母,所以我想到了使用表达式正则.

我只是不知道我在使用匹配运算符时做错了什么。在报告的代码中,如果未验证匹配,则写入外部文件。

String url = csvRecord.get("url");
String text = csvRecord.get("review");
String var = null;
for(String term : terms_1pers)
{
   if(!text.matches("[^a-z]"+term+"[^a-z]"))
   {
      var="true";
   }
}
if(!var.equals("true"))
{
    bw.write(url+";"+text+"\n");
}

【问题讨论】:

  • 您到底在寻找什么?
  • 如果整个字符串与正则表达式匹配,matches 返回 true。阅读 javadoc 以了解更多信息,并了解您应该使用什么。此外,不要使用字符串来表示布尔值。使用布尔值。并尊重 Java 命名约定。
  • 我想知道matches命令中包含的表达式是否正确。比如查找[^a-z]dog[^a-z],设置是否正确?
  • @Gaetano 您正在使用的 matches() 方法需要完全匹配。在这种情况下,“4dog5”是匹配的,但“a3dog3b”不是匹配的。看看我更新的答案。
  • 虽然@JeremyOwens 正在尝试一些读心术,但您应该提供一些您希望匹配"..."+"dog"+"..." 的实际示例,以及一些您希望不匹配的其他示例。然后有人可以提供关于"..."-s 可能是什么的输入。

标签: java regex string-matching regex-negation regex-group


【解决方案1】:

为了找到正则表达式匹配,您应该使用正则表达式类。模式和匹配器。

String term = "term";
ArrayList<String> a  = new ArrayList<String>();
a.add("123term456"); //true
a.add("A123Term5"); //false
a.add("term456"); //true
a.add("123term"); //true
Pattern p = Pattern.compile("^[^A-Za-z]*(" + term + ")[^A-Za-z]*$");
for(String text : a) {
    Matcher m = p.matcher(text);
    if (m.find()) {
         System.out.println("Found: " + m.group(1) );
         //since the term you are adding is the second matchable portion, you're looking for group(1)
    }
    else System.out.println("No match for: " + term);
}

}

在此处的示例中,我们创建了一个 https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html 的实例,以在您匹配的文本中查找匹配项。

请注意,我稍微调整了正则表达式。此代码中的选择从初始匹配部分中排除所有字母 A-Z 和小写版本。它还将允许在匹配项之前或之后根本没有字符的情况。如果您需要那里有东西,请使用+ 而不是*。我还限制了正则表达式,通过使用^$ 来验证匹配文本的结尾,强制匹配只包含这三个组的匹配项。如果这不适合您的用例,您可能需要进行调整。

要演示如何将其与各种不同的术语一起使用:

ArrayList<String> terms = new ArrayList<String>();
terms.add("term");
terms.add("the book is on the table");
terms.add("1981 was the best year ever!");
ArrayList<String> a  = new ArrayList<String>();
a.add("123term456");
a.add("A123Term5");
a.add("the book is on the table456");
a.add("1@#!231981 was the best year ever!9#");
for (String term: terms) {

    Pattern p = Pattern.compile("^[^A-Za-z]*(" + term + ")[^A-Za-z]*$");

    for(String text : a) {

        Matcher m = p.matcher(text);
        if (m.find()) {
             System.out.println("Found: " + m.group(1)  + " in " + text);
             //since the term you are adding is the second matchable portion, you're looking for group(1)
        }
        else System.out.println("No match for: " + term + " in " + text);
    }
}

输出是: 找到:123term456 中的术语 不匹配:A123Term5 中的术语 不匹配:书中的术语在桌子上456....

为了回答有关字符串术语不区分大小写的问题,这里有一种方法,我们可以利用java.lang.Character 来构建字符串的大小写字母选项。

String term = "This iS the teRm.";
String matchText = "123This is the term.";
StringBuilder str = new StringBuilder();
str.append("^[^A-Za-z]*(");
for (int i = 0; i < term.length(); i++) {
  char c = term.charAt(i);
  if (Character.isLetter(c))
    str.append("(" + Character.toLowerCase(c) + "|" + Character.toUpperCase(c) + ")");
  else str.append(c);
}
str.append(")[^A-Za-z]*$");

System.out.println(str.toString());


Pattern p = Pattern.compile(str.toString());
Matcher m = p.matcher(matchText);
if (m.find()) System.out.println("Found!");
else System.out.println("Not Found!");

此代码输出两行,第一行是正在模式中编译的正则表达式字符串。 "^[^A-Za-z]*((t|T)(h|H)(i|I)(s|S) (i|I)(s|S) (t|T)(h|H)(e|E) (t|T)(e|E)(r|R)(m|M).)[^A-Za-z]*$" 这个调整后的正则表达式允许匹配术语中的字母而不管大小写。第二个输出行是“找到!”因为在 matchText 中找到了混合大小写术语。

【讨论】:

  • 在我的例子中,你在term 变量中写的是一个文本字符串(例如“书在桌子上”)。一样吗?
  • 你应该可以在那里插入一个文本字符串。我刚刚使用“the book is on the table”作为 String term 的值测试了代码,它起作用了。
  • 我编辑了代码以显示使用更长的文本字符串并循环显示多个项目。
  • 要使条款不区分大小写,您必须正确地制作正则表达式。我将使用一些新代码编辑帖子。
  • 新代码展示了如何构建不区分大小写的正则表达式。我希望这些示例足以应用于您的用例并回答问题。
【解决方案2】:

有几点需要注意:

  • matches 需要完整的字符串匹配,所以[^a-z]term[^a-z] 只会匹配像:term. 这样的字符串。您需要使用.find() 来查找部分匹配项
  • 如果将文字字符串传递给正则表达式,则需要 Pattern.quote 它,否则如果它包含特殊字符,则不会匹配
  • 要检查单词在开头/结尾的 之前或之后是否有某种模式,您应该使用带有锚点的交替(如(?:^|[^a-z])(?:$|[^a-z]))或环视,@987654328 @ 和 (?![a-z])
  • 要匹配任何字母,只需使用 \p{Alpha} 或 - 如果您打算匹配任何 Unicode 字母 - \p{L}
  • var 变量设置为布尔类型更符合逻辑。

固定代码:

String url = csvRecord.get("url");
String text = csvRecord.get("review");
Boolean var = false;
for(String term : terms_1pers)
{
   Matcher m = Pattern.compile("(?<!\\p{L})" + Pattern.quote(term) + "(?!\\p{L})").matcher(text);
   // If the search must be case insensitive use
   // Matcher m = Pattern.compile("(?i)(?<!\\p{L})" + Pattern.quote(term) + "(?!\\p{L})").matcher(text); 
   if(!m.find())
   {
       var = true;
   }
}
if (!var) {
   bw.write(url+";"+text+"\n");
}

【讨论】:

    【解决方案3】:

    您没有考虑开头和结尾可能包含字母的情况 所以在前端和末尾添加 .* 应该可以解决您的问题。

    for(String term : terms_1pers)
    {
       if( text.matches(".*[^a-zA-Z]+" + term + "[^a-zA-Z]+.*)" )  
       {
          var="true";
          break; //exit the loop
       }
    }
    if(!var.equals("true"))
    {
        bw.write(url+";"+text+"\n");
    }
    

    【讨论】:

    • 因为contain 可能会发生我要查找的子字符串包含在另一个单词中,而我有兴趣在文本中查找单个单词。出于这个原因,我想使用正则表达式,即排除我正在搜索的术语(在字符串文本中)之前或之后的字母是 a-z 的情况。
    • matches的行有错误,无论如何都不起作用
    猜你喜欢
    • 1970-01-01
    • 2014-02-08
    • 1970-01-01
    • 1970-01-01
    • 2016-03-05
    • 2013-11-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多