[命令行工具]正则表达式 Regular Expression

历史

正则表达式出现于理论计算机科学的自动控制理论和形式化语言理论中。在这些领域中有对计算（自动控制）的模型和对形式化语言描述与分类的研究。¹
它可以转化成形式化语言或者确定型自动机。它们是语义上等价的，可以描述同一种语言。

Unix RegEx介绍

下面内容主体基于　https://github.com/ziishaned/...

版权: https://github.com/ziishaned/learn-regex
版权方式: MIT ©  
https://github.com/ziishaned/learn-regex/blob/master/LICENSE.md
作者: Zeeshan Ahmad, https://twitter.com/ziishaned

什么是正则表达式？

正则表达式是一组由字母和符号组成的特殊文本，它可以用来从文本中找出满足你想要的格式的句子。

一个正则表达式是一种从左到右匹配主体字符串的模式。
“Regular expression”可被缩写为“regex”或“regexp”。
正则表达式可以从一个基础字符串中根据一定的匹配模式替换文本中的字符串、验证表单、提取字符串等等。

想象你正在写一个应用，然后你想设定一个用户命名的规则，让用户名包含字符、数字、下划线和连字符，以及限制字符的个数，好让名字看起来没那么丑。
我们使用以下正则表达式来验证一个用户名：

RegEx

以上的正则表达式可以接受 john_doe、jo-hn_doe、john12_as。

但不匹配Jo，因为：

它包含了大写的字母J
长度小于３

1. 基本匹配

正则表达式其实就是在执行搜索时的格式，它由一些字母和数字组合而成。
例如：一个正则表达式 the，它表示一个规则：由字母t开始，接着是h，再接着是e。

"the" => The fat cat sat on the mat.

元字符	描述
.	句号匹配任意单个字符除了换行符。
[ ]	字符种类。匹配方括号内的任意字符。
[^ ]	否定的字符种类。匹配除了方括号里的任意字符
*	匹配>=0个重复的在*号之前的字符。
+	匹配>=1个重复的+号前的字符。
?	标记?之前的字符为可选.
{n}	匹配n个大括号之间的字符.
{n,m}	匹配num个大括号之间的字符 (n <= num <= m).
{n,}	匹配num个大括号之间的字符 (n <= num).
(xyz)	字符集，匹配与 xyz 完全相等的字符串.
\|	或运算符，匹配符号前或后的字符.
\	转义字符,用于匹配一些保留的字符 `[ ] ( ) { } . * + ? ^ $ \|`
^	从开始行开始匹配.
$	从末端开始匹配.

简写	描述
.	除换行符外的所有字符
\w	匹配所有字母数字，等同于 `[a-zA-Z0-9_]`
\W	匹配所有非字母数字，即符号，等同于： `[^\w]`
\d	匹配数字： `[0-9]`
\D	匹配非数字： `[^\d]`
\s	匹配所有空格字符，等同于： `[\t\n\f\r\p{Z}]`
\S	匹配所有非空格字符： `[^\s]`
\f	匹配一个换页符
\n	匹配一个换行符
\r	匹配一个回车符
\t	匹配一个制表符
\v	匹配一个垂直制表符
\p	匹配 CR/LF（等同于 `\r\n`），用来匹配 DOS 行终止符
\b	匹配一个词的边界，不会消耗任何字符只匹配一个位置
\B	匹配不是单词开头或结束的位置

符号	描述
?=	正先行断言-存在 Positive Lookahead
?!	负先行断言-排除 Negative Lookahead
?<=	正后发断言-存在 Positive Lookbehind
?<!	负后发断言-排除 Negative Lookbehind

标志	描述
i	忽略大小写。
g	全局搜索。
m	多行修饰符：锚点元字符 `^` `$` 工作范围在每行的起始。

[命令行工具]正则表达式 Regular Expression

历史

Unix RegEx介绍

什么是正则表达式？

1. 基本匹配

2. 元字符 Meta Characters

2.1 点运算符 . Full stop

2.2 字符集 Character set

2.2.1 否定字符集 Negated character set

2.3 重复次数 Repetitions

2.3.1 * 号 The Star

2.3.2 + 号 The Plus

2.3.3 ? 号 The Question Mark

2.4 {} 号 Braces

2.5 (...) 捕获组 特征标群 Capturing Group

2.5.1 非特征标群 非捕获组 Non capturing group

2.6 | 或运算符 Alternation

2.7 转码特殊字符 Escaping special character

2.8 锚点 Anchors

2.8.1 ^ 号 Caret

2.8.2 $ 号 Dollar

3. 简写字符集 Shorthand Character Sets

4. 零宽度断言（前后预查） Lookaround

4.1 ?=... 正先行断言 Positive Lookahead

4.2 ?!... 负先行断言 Negative Lookahead

4.3 ?<= ... 正后发断言 Positive Lookbehind

4.4 ?<!... 负后发断言 Negative Lookbehind

5. 标志 Flags

5.1 忽略大小写 Case Insensitive

5.2 全局搜索 Global search

5.3 多行修饰符 Multiline

6. 贪婪匹配与惰性匹配（Greedy vs lazy matching）

额外补充

罗济高

引用和评论

[Leetcode]195.tenth-line

JS正则表达式知识点归纳

rocky linux 使用记录

快捷键打开某个窗口(如网页chatGPT)

但是，I/O多路复用中是如何判断文件“可读”/“可写”的？

麒麟系统中theia终端崩溃问题排查小记

【笔记】CentOS 7 中配置 YUM

2.1 点运算符 `.` Full stop

2.3.1 `*` 号 The Star

2.3.2 `+` 号 The Plus

2.3.3 `?` 号 The Question Mark

2.4 `{}` 号 Braces

2.5 `(...)` 捕获组特征标群 Capturing Group

2.5.1 非特征标群非捕获组 Non capturing group

2.6 `|` 或运算符 Alternation

2.8.1 `^` 号 Caret

2.8.2 `$` 号 Dollar

4.1 `?=...` 正先行断言 Positive Lookahead

4.2 `?!...` 负先行断言 Negative Lookahead

4.3 `?<= ...` 正后发断言 Positive Lookbehind

4.4 `?<!...` 负后发断言 Negative Lookbehind