Python3 如何优雅地使用正则表达式

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

正则表达式（Regular expressions 也称为REs，或regexes 或regex patterns）本质上是一个微小的且高度专业化的编程语言。它被嵌入到Python 中，并通过re 模块提供给程序猿使用。使用正则表达式，你需要指定一些规则来描述那些你希望匹配的字符串集合。这些字符串集合可能包含英语句子、

e-mail 地址、TeX 命令，或任何你想要的东东。

正则表达式模式被编译成一系列的字节码，然后由一个C 语言写的匹配引擎所执行。对于高级的使用，你可能需要更关注匹配引擎是如何执行给定的RE，并通过一定的方式来编写RE，以便产生一个可以运行得更快的字节码。本文暂不讲解优化的细节，因为这需要你对匹配引擎的内部机制有一个很好的理解。但本文的例子均是符合标准的正则表达式语法。

小甲鱼注释：Python 的正则表达式引擎是用C 语言写的，所以效率是极高的。另，所谓的正则表达式，这里说的RE，就是上文我们提到的“一些规则”。

正则表达式语言相对较小，并且受到限制，所以不是所有可能的字符串处理任务都可以使用正则表达式来完成。还有一些特殊的任务，可以使用正则表达式来完成，但是表达式会因此而变得非常复杂。在这种情况下，你可能通过自己编写Python 代码来处理会更好些；尽管Python 代码比一个精巧的正则表达式执行起来会慢一些，但可能会更容易理解。

小甲鱼注释：这可能是大家常说的“丑话说在前”吧，大家别管他，正则表达式非常优秀，她可以处理你98.3% 的文本任务，一定要好好学哦~~~~~

简单的模式

我们将从最简单的正则表达式学习开始。由于正则表达式常用于操作字符串的，因此我们从最常见的任务下手：字符匹配。

字符匹配

大多数字母和字符会匹配它们自身。举个例子，正则表达式 FishC 将完全匹配字符串 "FishC"。（你可以启用不区分大小写模式，这将使得 FishC 可以匹配 "FISHC" 或 "fishc"，我们会在后边讨论这个话题。）

当然这个规则也有例外。有少数特殊的字符我们称之为元字符（metacharacter），它们并不能匹配自身，它们定义了字符类、子组匹配和模式重复次数等。本文用很大的篇幅专门讨论了各种元字符及其作用。

下边是元字符的完整列表（我们将在后边逐一讲解）：

. ^ $ * + ? { } [ ] \ | ( )

小甲鱼注释：如果没有这些元字符，正则表达式就变得跟字符串的find() 方法一样平庸了......

我们先来看下方括号 [ ]，它们指定一个字符类用于存放你需要匹配的字符集合。可以单独列出需要匹配的字符，也可以通过两个字符和一个横杆 - 指定匹配的范围。例如 [abc] 会匹配字符 a，b 或 c；[a-c] 可以实现相同的功能。后者使用范围来表示与前者相同的字符集合。如果你想只匹配小写字母，你的RE 可以写成 [a-z]。

需要注意的一点是：元字符在方括号中不会触发“特殊功能”，在字符类中，它们只匹配自身。例

如 [akm$] 会匹配任何字符 'a'，'k'，'m' 或 '$'，'$' 是一个元字符，但在方括号中它不表示特殊含义，它只匹配 '$' 字符本身。

你还可以匹配方括号中未列出的所有其他字符。做法是在类的开头添加一个脱字符号 ^ ，例如 [^5] 会匹配除了 '5' 之外的任何字符。

或许最重要的元字符当属反斜杠 \ 了。跟Python 的字符串规则一样，如果在反斜杠后边紧跟着一个元字符，那么元字符的“特殊功能”也不会被触发。例如你需要匹配符号 [ 或 \，你可以在它们前面加上一个反斜杠，以消除它们的特殊功能：\[，\\。

反斜杠后边跟一些字符还可以表示特殊的意义，例如表示十进制数字，表示所有的字母或者表示非空白的字符集合。

小甲鱼解释：反斜杠真牛逼，反斜杠后边跟元字符去除特殊功能，反斜杠后边跟普通字符实现特殊功能。

让我们来举个例子：\w 匹配任何字符。如果正则表达式以字节的形式表示，这相当于字符

类 [a-zA-Z0-9_]；如果正则表达式是一个字符串，\w 会匹配所有Unicode 数据库（unicodedata 模块提供）中标记为字母的字符。你可以在编译正则表达式的时候，通过提供re.ASCII 表示进一步限

制 \w 的定义。

小甲鱼解释：re.ASCII 标志使得\w 只能匹配ASCII 字符，不要忘了，Python3 是Unicode 的。下边列举一些反斜杠加字符构成的特殊含义：

特殊字符含义

\d 匹配任何十进制数字；相当于类 [0-9]

\D 与 \d 相反，匹配任何非十进制数字的字符；相当于类 [^0-9]

\s 匹配任何空白字符（包含空格、换行符、制表符等）；相当于类 [ \t\n\r\f\v]

\S 与 \s 相反，匹配任何非空白字符；相当于类 [^ \t\n\r\f\v]

\w 匹配任何字符，见上方解释

\W 于 \w 相反

\b 匹配单词的开始或结束

\B 与 \b 相反

它们可以包含在一个字符类中，并且一样拥有特殊含义。例如 [\s,.] 是一个字符类，它将匹配任何空白字符（/s 的特殊含义），',' 或 '.'。

最后我们要讲的一个元字符是 .，它匹配除了换行符以外的任何字符。如果设置了re.DOTALL 标志，. 将匹配包括换行符在内的任何字符。

重复的事情

使用正则表达式能够轻松的匹配不同的字符集合，但Python 字符串现有的方法却无法实现。然而，如果你认为这是正则表达式的唯一优势，那你就too young too native 了。正则表达式有另一个强大的功能，就是你可以指定RE 部分被重复的次数。

我们来看看 * 这个元字符，当然它不是匹配 '*' 字符本身（我们说过元字符都是有特殊能力的），它用于指定前一个字符匹配零次或者多次。

例如 ca*t 将匹配 ct（0 个字符a），cat（1 个字符a），caaat（3 个字符a），等等。需要注意的是，由于受到C 语言的int 类型大小的内部限制，正则表达式引擎会限制字符'a' 的重复个数不超过20 亿个；不过，通常我们工作中也用不到那么大的数据。

正则表达式默认的重复规则是贪婪的，当你重复匹配一个RE 时，匹配引擎会尝试尽可能多的去匹配。直到RE 不匹配或者到了结尾，匹配引擎就会回退一个字符，然后再继续尝试匹配。

我们通过例子一步步的给大家讲解什么叫“贪婪”：先考虑一下表达式 a[bcd]*b，首先需要匹配字符 'a'，然后是零个到多个 [bcd]，最后以 'b' 结尾。那现在想象一下，这个RE 匹配字符串 abcbd 会怎样？

步骤匹配说明

1 a 匹配RE 的第一个字符 'a'

2 abcbd 引擎在符合规则的情况下尽可能地匹配 [bcd]*，直到该字符串的结尾

3 失败引擎尝试匹配RE 最后一个字符 'b'，但当前位置已经是字符串的结尾，所以失败告终

4 abcb 回退，所以 [bcd]* 匹配少一个字符

5 失败再一次尝试匹配RE 最后一个字符 'b'，但字符串最后一个字符是 'd'，所以失败告终

6 abc 再次回退，所以 [bcd]* 这次只匹配 'bc'