1

Linux的正则表达式

重要性

我们通过sed或awk工具可以轻松愉快的对一堆文本分析、对数据进行处理、服务器报错日志的分析、服务器用户访问日志统计分析等。

但是要玩耍好sed和awk工具,正则表达式是基础,不得不掌握。

单个字符

特定字符
如'1'、'a'、'A'
范围字符
数字字符:[0-9],代表0到9数字中的任意一个

小写字符:[a-z],代表a到z字母中的任意一个

大写字符:[A-Z],代表A到Z字母中的任意一个

特殊符号:[,._]

取反:[^0-9],代表除0到9数字外的任意一个字符

任意字符
代表任意字符:'.'

注意:'[.]',代表普通的点(本身的含义),'\.'也是代表普通的点(本身的含义)

边界字符

头尾字符,即以某个或多个字符开头,或者是以某个或多个字符结尾
例如:
^root 代表以这个单词开始匹配
root$ 代表以这个单词结尾匹配
^$ 代表空行

元字符

代表普通字符或特殊字符
\w 代表匹配任何字类字符,包括下划线:[A-Za-z0-9_]
\W 代表匹配非任何字类字符,如:^[A-Za-z0-9_]
\b 代表单词的分割符(即不在连续的单词中间),如:'\bx'

重复字符

* 代表零次或者多次匹配前面的字符或者子表达式 
如 'ab*' ,只对b重复
'\(ab\)*' ,对ab重复
也可用{0,}表示

+ 代表一次或者多次匹配前面的字符或者子表达式 
如 'ab\+',只对b重复
也可用{1,}表示

?代表零次或者一次匹配前边的字符或子表达式 
如 'ab\?',只对b重复
也可用{0,1}表示

重复特定次数: {n,m} 重复最小n,最大m次
如 '[0-9]\{n,m\}'

任意字符串的表示:.*
如:'^r.*'、'm.*c'//不仅匹配4个字符,开头是m,结尾是c,但中间长度2个字符或以上

注意:'m..c' 只匹配4个字符,开头是m,结尾是c
坑:贪婪的匹配,如:'bm.*cb'

更加精确的匹配,如:'bm[a-z]*cb'

逻辑正则

| 或,如:'bin/\(false\|true\)'

哪些字符表示需要带'\'

(),如:'\(\)'
{},如:'\{\}'
+,如:'\+'
?,如:'\?'
|,如:'\|'
\,如:'\\'

例子

1、匹配4-10位的QQ号

'^[0-9]\{4,10\}$'

2、匹配15位或18位身份证号(支持带X的)

'^[1-9]\([0-9]\{13\}\|[0-9]{16\}\)[0-9xX]$'

3、匹配密码(由数字、26个字母和下划线组成)

'^w\+$'


张德Talk
628 声望647 粉丝

每日精进,致力于成为全栈工程师!