正则表达式速查笔记

和之前我的 Makefile 速查笔记一样，正则表达式也是相对少用，但是一旦用起来也挺复杂的知识。所以本文记录一下正则表达式的常用要点，备查。

本文地址：https://segmentfault.com/a/1190000013311698

参考资料

《学习正则表达式》，Michael Fitzgerald
regexper：这是个图形化的分析器，首先推荐
regexpal.com
regexr.com

正则表达式基本

匹配单个字符

匹配单个数字的写法，可以是 “[0-9]” 也可以是 “\d”。

匹配单个非数字字符，则使用大写 “\D”。

匹配 26 个字母的任意一个，使用 “[a-zA-Z]”

匹配任意一个字符，使用点号 “.”

匹配具体字符，则直接写上去即可。比如 “abcd” 就是匹配它本身。如果遇到特殊字符，则需要进行转义，转义字符为 “\”。

匹配一个字符，使用中括号的做法称为 “字符集”。中括号用于指定一个 “集”，匹配这个集中的一个字符，如十六进制数 “[0-9a-fA-F]”。字符集内的点表示的是点号本身，但其他的特殊字符还是需要进行转移，比如反斜杠字符。

使用量词

贪心匹配

如果要表示某个规则的重复，则需要使用量词。使用花括号表示重复次数。比如 8 个数字可以这样表示：“\d{8}”

花括号中的量词可以变化，比如表示 7 到 8 个数字，则表示为 “\d{7,8}”。表示上限的右值可以不写，比如 “{0,}” 是合法的，表示大于等于 0 个字符；但试图单独表示上限的 “{,10}” 则不合法，至少应该写为 “{0,10}”。

加号 “+” 表示它左边的元素数量为 “一个或多个”，等于 “{1,}” 的效果。所以加号也是特殊字符。

星号 “*” 表示它左边的元素数量为 “零个或至少一个”，即 “{0,}”。

问号 “?” 表示 “零个或一个”，等同于 “{0,1}”。

懒惰匹配

上面的诸如 +、*，匹配的时候都会使用 “贪心” 的模式，也就是匹配尽量多的个数。比如字符串 “55555”，使用 “5+” 去匹配时，会匹配到它能够找到的最长字符串，即 “55555”。

如果在量词后面加上问号，则使匹配模式变为 “懒惰” 的，也就是匹配最少的。比如使用 “5+?” 去匹配，则只会找到能够匹配的最小字符 “5”.

以下都是可用的懒惰匹配表达式：+?, *?, {n,}?, {m,n}?

捕获分组（类似于宏定义）

可以把表达式中的一部分 “捕获” 起来，作为宏放在后边引用。使用括号进行定义（捕获），然后再定义的后面使用 “\1” 进行引用；如果是第二个捕获，则使用 “\2”，以此类推。

分组一般都会被保存起来，但是当表达式非常长的时候，可能需要明确指明不保存该分组。比如使用这个格式 “(?:THE|The|the)”，就使用了 “?:” 标号来表示不要进行命名标记。

“或” 逻辑

使用 “|” 来链接两个字段，提供 “或” 的逻辑。注意与括号搭配使用

“非” 逻辑

如果在集合 “[...]” 中使用字符 “^”，则表示 “非”，如 “[^0-9]” 等同于 “\D”。

简单的模式匹配

以下是各种常用的单字符匹配列表：

指代类型	模式	备注
数字	`\d`
字母、数字、下划线	`\w`	等效于 “`[_a-zA-Z0-9]`”
非数字	`\D`
非字母	`\W`
制表符 Tab	`\t`
Null 字符	`\0`
Backspace	`[\b]`
空格	`\s`	等效于 “`[ \t\n\r]`”
Return	`\r`
换行	`\n`
单词之间的空白	`\b`	这里只是匹配单词的开始 / 结束，不消耗任何字符
任意一个字符	`.`	行结束符无法使用这个符号匹配

边界

本小节设计一个概念：断言，又称为 “零宽度断言（zero-width asseration）”。这个概念不匹配字符，而是匹配字符串中的位置。

行的起始和结束

使用 “^” 表示一行的开始
使用 “$” 表示一行的终止

单词边界和非单词边界

比如要匹配单词 “the”，则写 “\bthe\b”。如果要匹配哥哥中间带 “e” 的单词，则可以写 “\Be\B”

可以使用 “\<” 匹配单词开头，“\>” 匹配单词结尾。但是这两个并不建议使用，因为新的匹配器可能不支持。

Unicode 字符和其他字符

正则表达式支持输入 unicode 的值，如 “\u00e9”。注意 unicode 必须有四位十六进制位，大小写均可。Javascript 还支持 “\xe9” 的写法，然而 “\x00e9” 则是错误的。