Java - 正则表达式的运用（Pattern模式和Matcher匹配)—— 匹配中文，英文字母和数字及_长度详解——收集资源blog

Java Language Specification 的要求，Java 源代码的字符串中的反斜线被解释为字符转义。因此必须在字符串字面值中使用两个反斜线，表示正则表达式受到保护，不被 Java 字节码编译器解释。例如，当解释为正则表达式时，字符串字面值 "b"与单个退格字符匹配，而"\b"与单词边界匹配。字符串字面值"(hello)"是非法的，将导致编译时错误；要与字符串(hello)匹配，必须使用字符串字面值"

字符类运算符的优先级如下所示，按从最高到最低的顺序排列：

1 2 3 4 5 字面值转义

x
分组	[...]
范围	a-z
并集	[a-e][i-u]
交集	[a-z&&[aeiou]]

行结束符是一个或两个字符的序列，标记输入字符序列的行结尾。以下代码被识别为行结束符：

新行（换行）符 ('n')、
后面紧跟新行符的回车符 ("rn")、
单独的回车符 ('r')、
下一行字符 ('u0085')、
行分隔符 ('u2028') 或
段落分隔符 ('u2029)。

如果未指定DOTALL标志，则正则表达式.可以与任何字符（行结束符除外）匹配。

默认情况下，正则表达式^和$忽略行结束符，仅分别与整个输入序列的开头和结尾匹配。如果激活MULTILINE模式，则^在输入的开头和行结束符之后（输入的结尾）才发生匹配。处于MULTILINE模式中时，$仅在行结束符之前或输入序列的结尾处匹配。捕获组可以通过从左到右计算其开括号来编号。例如，在表达式((A)(B(C)))中，存在四个这样的组：

1 2 3 4 ((A)(B(C)))

(B(C))

(C)

组零始终代表整个表达式。

之所以这样命名捕获组是因为在匹配中，保存了与这些组匹配的输入序列的每个子序列。捕获的子序列稍后可以通过 Back 引用在表达式中使用，也可以在匹配操作完成后从匹配器获取。

与组关联的捕获输入始终是与组最近匹配的子序列。如果由于量化的缘故再次计算了组，则在第二次计算失败时将保留其以前捕获的值（如果有的话）例如，将字符串"aba"与表达式(a(b)?)+相匹配，会将第二组设置为"b"。在每个匹配的开头，所有捕获的输入都会被丢弃。

以(?)开头的组是纯的非捕获组，它不捕获文本，也不针对组合计进行计数。

Unicode 支持

Unicode Technical Standard #18:Unicode Regular Expression Guidelines 第 1 级和 RL2.1 Canonical Equivalents。

Java 源代码中的 Unicode 转义序列（如 u2014）是按照 Java Language Specification 的

prop，则与p{prop}匹配，而输入具有该属性时与P{prop}不匹配。块使用前缀In指定，与在InMongolian中一样。可以使用可选前缀Is指定类别：p{L}和p{IsL} 都表示 Unicode 字母的类别。块和类别在字符类的内部和外部都可以使用。

The Unicode Standard 的类别。类别名称是在 Standard 中定义的，即标准又丰富。

methodname方法（废弃的类别除外）的类别，可以通过相同的p{prop}语法来提供，其中指定的属性具有名称javamethodname。

`此类不支持 Perl 构造：`

条件构造(?{X})和(?(condition)X|Y)、

嵌入式代码构造(?{code})和(??{code})、
嵌入式注释语法(?#comment)和
预处理操作lu、L和U。

此类支持但 Perl 不支持的构造：

Possessive 数量词，它可以尽可能多地进行匹配，即使这样做导致所有匹配都成功时也如此。

上文所述。

与 Perl 的显著不同点是：

在 Perl 中，1到9 始终被解释为 Back 引用；如果至少存在多个子表达式，则大于 9 的反斜线转义数按 Back 引用对待，否则在可能的情况下，它将被解释为八进制转义。在此类中，八进制转义必须始终以零开头。在此类中，1到9 始终被解释为 Back 引用，较大的数被接受为 Back 引用，如果在正则表达式中至少存在多个子表达式的话；否则，解析器将删除数字，直到该数小于等于组的现有数或者其为一个数字。

Perl 使用 g标志请求恢复最后匹配丢失的匹配。此功能是由Matcher类显式提供的：重复执行find方法调用可以恢复丢失的最后匹配，除非匹配器被重置。
在 Perl 中，位于表达式顶级的嵌入式标记对整个表达式都有影响。在此类中，嵌入式标志始终在它们出现的时候才起作用，不管它们位于顶级还是组中；在后一种情况下，与在 Perl 中类似，标志在组的结尾处还原。

Perl 允许错误匹配构造，如在表达式 *a中，以及不匹配的括号，如在在表达式abc] 中，并将其作为字面值对待。此类还接受不匹配的括号，但对 +、? 和 * 不匹配元字符有严格限制；如果遇到它们，则抛出PatternSyntaxException。

简单例子

Java - 正则表达式的运用（Pattern模式和Matcher匹配)—— 匹配中文，英文字母和数字及_长度详解——收集资源blog

public static void main(String[] args) {
String patternStr = "\u300a.+\u300b";
Pattern pattern = Pattern.compile(patternStr);
String input = "《21世纪》记者";
Matcher matcher = pattern.matcher(input);
if (matcher.find()) {
int start = matcher.start();
int end = matcher.end();
System.out.println(input.substring(start, end));
}else{
System.out.println("not found");
}
//output: 《21世纪》
}

1.java验证IP地址：

Pattern pattern = Pattern.compile(“\\b((?!\\d\\d\\d)\\d+|1\\d\\d|2[0-4]\\d|25[0-5])\\.((?!\\d\\d\\d)\\d+|1\\d\\d|2[0-4]\\d|25[0-5])\\.((?!\\d\\d\\d)\\d+|1\\d\\d|2[0-4]\\d|25[0-5])\\.((?!\\d\\d\\d)\\d+|1\\d\\d|2[0-4]\\d|25[0-5])\\b”);

Matcher matcher = pattern.matcher(“127.400.600.2″); //以验证127.400.600.2为例

System.out.println(matcher.matches());

2. java验证日期时间，解决润月：

Pattern pattern = Pattern.compile(“^((\\d{2}(([02468][048])|([13579][26]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])))))|(\\d{2}(([02468][1235679])|([13579][01345789]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|(1[0-9])|(2[0-8]))))))(\\s(((0?[0-9])|([1-2][0-3]))\\:([0-5]?[0-9])((\\s)|(\\:([0-5]?[0-9])))))?$”);

Matcher matcher = pattern.matcher(“2000-02-29 23:59:59″);

System.out.println(matcher.matches());

3.java验证邮箱格式：

Pattern pattern = Pattern.compile(“^([a-zA-Z0-9_\\-\\.]+)@((\\[[0-9]{1,3}\\.[0-9]{1,3}\\.[0-9]{1,3}\\.)|(([a-zA-Z0-9\\-]+\\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\\]?)$”);

Matcher matcher = pattern.matcher(“a@aa.com”);

System.out.println(matcher.matches());

正则表达式的贪婪模式

非贪婪模式是指尽可能少的查找满足匹配的结果，一般情况下我们使用都是非贪婪模式。使用贪婪模式的话，需要加上(*?);这个就是贪婪模式的开始。比如下面的匹配：

String pattern = "<a>(.*)</a>"; 非贪婪

<a>hello<a>world</a>welcome</a>

String pattern = "<a>(.*？)</a>"; 贪婪

<a>hello<a> 和 </a>welcome</a>

另：http://www.cnblogs.com/zxin/archive/2013/01/26/2877765.html

http://blog.csdn.net/wp562846864/article/details/22913203