正则表达式为什么"\"(反斜杠)需要4个"\"(反斜杠)来转义?

对于反斜杠"\"为什么不能直接使用"\\"来转义,而是要使用4个反斜杠,这是网上搜出来的一个解释,没有看明白,求解释一下?

与大多数编程语言相同,正则表达式里使用"\"作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\":前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠.


Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r"\"表示。同样,匹配一个"\\d"可以写成r"\d"。有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。

阅读 11.1k
5 个回答

前两个和后两个分别用于在编程语言里转义成反斜杠,

转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

其实已经描述的很清楚了,首先这个正则语句是一个字符串,而Python字符串里面表达一个反斜杠就要两个反斜杠,所以其实这里给到正则解析器的时候其实只有一个反斜杠,而正则里,表达一个反斜杠又需要两个反斜杠,所以总共需要四个。

`r"\"` 会造成语法错的。这样做的目的是,r 字符串通常用于正则,而末尾出现单数个 `\` 的正则是有问题的,所以 Python 的 r 字符串不允许以单数个 `\` 结尾。

好吧,可恶的 markdown……看来只有这样写才会正常点……

首先,假设正则是这样子的\d,由于Python将\字符看做是转义字符,为了使Python将这一段里的右斜杠看成是普通字符,所以要对这个斜杠进行转义,成了\\d

然后\\d由于要被放到文本里,如果直接用文本\\d的话,显示出来的是文本\d,这样直接把这个文本放到正则解析器里去的话,\d就会成为被正则解析器认为是一个控制字符。所以文本里需要\\\\d

具体如下:
字符串\\\\d中,第一和第三个右斜杠被Python视为转义符号,所以实际字符串表示的是\\d
此字符串\\d被传入正则解析器,正则解析器的Python代码将第一个\视为转义符号,得到\d

在正则表达式中匹配反斜杠需要对反斜杠进行转义,这会导致\\。然后,为了在python(很多语言中)字符串中使用反斜杠,也必须对它进行转义,因此对两个反斜杠进行转义就意味着总共会得到4个反斜杠。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题