详解python中正则表达式的反斜线的转义功能

格瑞姆瑞坡

阅读 1 分钟

0

最近深入研读了正则表达式的一本经典著作，对于在python中使用正则表达式时使用反斜线转义功能时有些心得，特与大家分享。
核心思想：在python中使用正则表达式时要切记反斜线具有两层转义功能，如果你要匹配一个反斜线本身时要注意它必须被转义两次。（除非你使用原始字符串，就是字符串前面加r）
我们先来看一个例子：

import re
a = re.match('\\\','\\')

  File "<ipython-input-93-6e1102e416ee>", line 2
    a = re.match('\\\','\\')
                            ^
SyntaxError: unexpected character after line continuation character

上面这个例子本身就不合语法要求，那么为什么呢？首先在
python中，因为正则表达式本身是一个字符串，所以它要遵守字符串的规则——反斜线表示转义符
而在正则表达式中反斜线又是一个具有转义功能的元字符，所以反斜线具备了双重转义功能
回到例子中，第一个转义了第二个，此时第二个去除了字符串转义符的身份，但是它还有正则表达式转义元字符的身份

也就是说第二个仍然具备转义功能，那么它转义谁呢？它只能转义第三个，可是第三个它具备两层身份（字符串的转义符和正则表达式的转义元字符）

所以现在有两种可能情况发生：

第一种，第二个无法转义第三个，因为身份不符，一个是正则表达式转义元字符，另一个是字符串转义符
第二种，第二个转义了第三个，但是这种转义也仅仅是去除了一层身份，但是它还有一层身分（转义元字符）结果就是第三个仍然具有转义功能。

总之不管这时发生了哪种情况，第三个最终结果就是仍然具备转义功能，他会转义它后面的单引号，使得整段代码语法错误。

所以正确的写法是再添加一个反斜线，四个反斜线，两两转义之后最终转义成匹配单独一个反斜线的功能

import re
a = re.match('\\\\','\\')
print(a)
#显示的结果match='\\',之所以显示两个反斜线是因为语法规定一个反斜线无法显示（\是转义符）

<_sre.SRE_Match object; span=(0, 1), match='\\'>

当然也可以使用原始字符串的方法，在字符串前面加r，这时里面的反斜线就失去字符串转义符的功能了，本文主要讨论实质原理，不是方法

import re
a = re.match(r'\\','\\')
print(a)

<_sre.SRE_Match object; span=(0, 1), match='\\'>

阅读 3.5k发布于 2018-09-30

格瑞姆瑞坡

34 声望4 粉丝

« 上一篇

Python基础知识之字典

下一篇 »

python面试题之“该死的for循环系列”（一）

引用和评论

推荐阅读

Python之文件读写补充——R+模式下修改中文内容

格瑞姆瑞坡阅读 3k评论 9

python与nodejs哪个性能高

时尚的鼠标赞 2阅读 413

Anaconda安装教程以及Anaconda和pip配置国内镜像

遗失的美好灬阅读 5.7k

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

Swift社区赞 1阅读 722

Python 描述符

Exception阅读 3.3k

科学计算编程涉及到的技术栈简介

冒泡的马树阅读 3.3k评论 1

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

universe_king阅读 2.9k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。