正则表达式详解

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

正则表达式

1．什么是正则表达式

简单的说，正则表达式是一种可以用于文字模式匹配和替换的强有力的工具。是由一系列普通字符和特殊字符组成的能明确描述文本字符串的文字匹配模式。

正则表达式并非一门专用语言，但也可以看作是一种语言，它可以让用户通过使用一系列普通字符和特殊字符构建能明确描述文本字符串的匹配模式。除了简单描述这些模式之外，正则表达式解释引擎通常可用于遍历匹配，并使用模式作为分隔符来将字符串解析为子字符串，或以智能方式替换文本或重新设置文本格式。正则表达式为解决与文本处理有关的许多常见任务提供了有效而简捷的方式。

正则表达式具有两种标准：

·基本的正则表达式(BRE –Basic Regular Expressions)

·扩展的正则表达式(ERE – Extended Regular Expressions)。

ERE包括BRE功能和另外其它的概念。

正则表达式目前有两种解释引擎：

·基于字符驱动(text-directed engine)

·基于正则表达式驱动(regex-directed engine)

Jeffery Friedl把它们称作DFA和NFA解释引擎。

约定：

为了描述起来方便，在本文中做一些约定：

1.本文所举例的所有表达时都是基于NFA解释引擎的。

2.正则表达式，也就是匹配模式，会简写为Regex。

3. Regex的匹配目标，也就是目标字符串，会简写为String。

4.匹配结果用会用黄色底色标识。

5.用1\+1=2 括起来的表示这是一个regex。

6.举例会用以下格式：

test

This is a test

会匹配test，testcase等

2．正则表达式的起源

正则表达式的”祖先”可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。

1956 年, 一位叫 Stephen Kleene 的美国数学家在 McCulloch 和 Pitts 早期工作的基础上，发表了一篇标题为”神经网事件的表示法”的论文，引入了正则表达式的概念。正则表达式就是用来描述他称为”正则集的代数”的表达式，因此采用”正则表达式”这个术语。

随后，发现可以将这一工作应用于使用Ken Thompson 的计算搜索算法的一些早期研究，Ken Thompson是Unix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的qed 编辑器。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。具有完整语法的正则表达式使用在字符的格式匹配方面上，后来被应用到熔融信息技术领域。自从那时起，正则表达式经过几个时期的发展，现在的标准已经被ISO(国际标准组织)批准和被Open Group组织认定。

3. 正则表达式使用详解

最简单的正则表达式相信大家都已熟悉并且经常使用，那就是文字字符串。特定的字符串可

通过文字本身加以描述；像 test这样的Regex模式可精确匹配输入的字符串”test”，但是它也可以匹配this is a testcase，这就不是我们想要得结果。

当然，使用正则表达式匹配等于它自身的精确字符串是没有价值的实现，不能体现正则表达式的真正作用。但是，假如要查找的不是test，而是所有以字母 t 开头的单词，或所有4个字母的单词，那该怎么办？这超出了文字字符串的合理范围。所以我们才需要深入地研究正则表达式。

3.1基本语法

虽然正则表达式并非一门专用语言，但它也有一些特殊的规定，也可以称之为基本语法。

正则表达式是由普通字符（例如字符 a 到z）以及特殊字符（称为元字符）组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与操作符将小的表达式结合在一起来创建更大的表达式。

可以通过在一对分隔符之间放入表达式模式的各种组件来构造一个正则表达式。

3.1.1普通字符

由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符，所有数字，所有标点符号以及一些符号。

3.1.2非打印字符

非打印字符也是普通字符，单独列出来便于参考。

非打印字符参考（有错大家矫正，JS手册都有）

\cx

匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。

匹配一个换页符。等价于 \x0c 和 \cL。

匹配一个换行符。等价于 \x0a 和 \cJ。

匹配一个回车符。等价于 \x0d 和 \cM。

匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

匹配一个制表符。等价于 \x09 和 \cI。

匹配一个垂直制表符。等价于 \x0b 和 \cK。

Regex中可以使用非打印字符。\t会匹配一个tab字符(ASC||)，\r 会匹配一个回车(0x0D)，\n 会匹配一个换行符(0x0A)。应该注意的是：Windows使用\r\n表示一行的结束，而UNIX使用\n 。同样，我们可以在Regex中使用16进制的ASCⅡ码或者ANSI标准码。在拉丁语中，版权符号的代码是0xA9，所以我们也可以这样来匹配版权符号 \xA9 。另外一个匹配tab的写法是：\x09 。但是注意，第一位的”0”必须去掉。

3.1.3特殊字符