第二章量词
2.1概述
所谓量词,可以理解为用来描述某个字符(字符组)重复出现的次数。举个例子,11位数的电话号码,如果不考虑前三位的固定组合,用正则表达式写成:\d\d\d\d\d\d\d\d\d\d\d
其中d重复了11次,十分不方便,所以就引入了量词,上式可以轻松地写成:\d{11}
量词也支持对长度描述范围,形如{m,n} m和n分别是两个整数,相当于数学中的[m,n],例如\d{1,11}
,表示这个数字字符串的长度最短1个字符,最长11个字符。
【注意】{m,n}的n省略写成{m,} 表示字符出现最少m次,且没有上限。
2.2 常用量词表示
有几种技术人员常用的量词表示,产生出了相当于量词的简记策略。
常用量词 | 等价形式 | 含义 |
---|---|---|
? | {0,1} | 字符(组)可能出现1次或者不出现 |
+ | {1,} | 字符(组)至少出现1次,且无上限 |
* | {0,} | 字符(组)可能不出现或者出现次数无上限 |
2.3 点号
特殊的元字符 .(点号),点号可以匹配除了换行符n之外的所有字符,包括数字、字母各种符号等。如果需要匹配真正的所有字符的话,可以在设置单行模式匹配的情况下使用点号,或者使用第一章所讲,使用 [\s\S]
。
2.4 匹配优先量词
正则表达式中的量词可以分为几种类别,之前介绍的量词都是可以归为匹配优先量词,其匹配策略为:当不确定是否要匹配时,先尝试匹配,再做后续动作。
因为有匹配优先的存在,对于通配符(除\n
)点号就有可能匹配到本不该匹配到的部分(比如字符串的末尾),这时候就应该放弃本次匹配,让表达式的后一部分尝试匹配。这一个过程称为回溯。
2.5忽略优先量词
相反地,当不确定时候要匹配时选择不匹配的称为忽略优先量词。先尝试用表达式后面的部分匹配,不符合时再做回溯操作。
上面提到的常用量词都是优先匹配的,它们都有忽略优先的对应量词,见下表:
匹配优先量词 | 忽略优先量词 | 含义 |
---|---|---|
* | *? | 字符(组)可能出现1次或者不出现 |
+ | +? | 字符(组)至少出现1次,且无上限 |
? | ?? | 字符(组)可能不出现或者出现次数无上限 |
{m,n} | {m,n}? | 字符(组)至少出现m次,最多出现n次 |
{m,} | {m,}? | 字符(组)至少出现m次,且无上限 |
{,n} | {,n}? | 字符(组)可能出现或者不出现,最多出现n次 |
【注意】对于忽略优先量词的转义包括前后两部分,即*?的转义为\*\?
,+?的转义为\+\?
,??的转义为\?\?
讲完了两种重要的元素,字符组和量词。
【预告】第三章分组。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。