正则表达式的资料
常用正则表达式语法大全
正则表达式是一种用于匹配和处理文本的强大工具,可以在很多编程语言和文本编辑器中使用。
以下是一些常用的正则表达式语法:1.字符匹配:–.: 匹配任意单个字符,不包括换行符。
–\w: 匹配任意字母、数字或下划线。
–\d: 匹配任意数字。
–\s: 匹配任意空白字符,包括空格、制表符、换行等。
–[...]: 匹配方括号内的任意字符。
例如,[aeiou]匹配任意一个元音字母。
–[^...]: 匹配除了方括号内字符之外的任意字符。
例如,[^aeiou]匹配任意一个非元音字母。
2.重复匹配:–*: 匹配前一个字符0次或多次。
–+: 匹配前一个字符1次或多次。
–: 匹配前一个字符0次或1次。
–{n}: 匹配前一个字符恰好n次。
–{n,}: 匹配前一个字符至少n次。
–{n,m}: 匹配前一个字符至少n次,最多m次。
3.边界匹配:–^: 匹配字符串的开始位置。
–$: 匹配字符串的结束位置。
–\b: 匹配单词边界,即单词前后的位置。
–\B: 匹配非单词边界的位置。
4.分组和捕获:–(): 将括号内的表达式视为一个分组。
–(?:): 类似于普通分组,但不进行捕获。
–\n: 反向引用,引用第n个分组的内容。
5.特殊字符转义:–\: 转义字符,用于匹配特殊字符本身。
6.修饰符:–i: 忽略大小写。
–g: 全局匹配,不仅匹配第一个结果。
–m: 多行匹配,使^和$匹配每一行的开始和结束。
这里列举了一些常用的正则表达式语法,但实际使用中,还有更多复杂的语法和特性,可以根据具体需求查阅更详细的正则表达式文档和教程。
不同编程语言和文本编辑器对正则表达式的支持也有所不同,所以在实际应用中需要根据具体的环境进行调整。
正则表达式例子大全
正则表达式例子大全一、元字符1. .:除换行外的任意单字符2. \w:数字、字符3. \d:十进制数字4. \W:非数字、字符5. \D:非十进制数字6. \s:空白符(不可见字符)7. \S:非空白符(可见字符)8. \n:换行符9. \r:回车符10. \t:Tab空格二、字符集合1. [abc]:括号中任意单字符2. [^abc]:除括号中字符外任意字符3. [a-z]:括号中a-z英文字母4. [A-Z]:括号中A-Z英文字母5. [0-9]:括号中0-9数字三、字符数量1. *:0次或者多次2. +:1次或者多次3. ?:0次或者1次4. {n}:n次5. {m,n}:m次到n次四、限定符1. \b:单个单词边界2. ^:字符串起始处3. $:字符串结束处4. |:或者五、分组1. (exp):括号内作为一个整体进行分组2. (?:exp):六、反义1. \b:单词边界2. \B:非单词边界3. \w:数字、字母4. \W:非数字、字母5. \d:十进制数字6. \D:非十进制数字7. \s:空白符8. \S:非空白符正则表达式是一种非常强大的文本检查和替换工具,它的出现给我们带来了更为可靠、灵活的文本处理方式,简化了字符串分析和文本处理相关任务。
它还提供了强大的文本搜索能力,主要用于文本模式匹配,如:搜索、替换、拆分等,在日常的文本处理中非常有效。
它的工作原理是通过使用特殊的字符串模式,来匹配文本中的某些字符模式,如果匹配到就返回True,如果没有匹配到就返回False。
其中,元字符和字符集合是它的主要构成要素,它们既可以表示特殊的字符,也可以表示特定的字符集合。
字符数量则是用来表示字符出现的次数,而限定符则能够提升匹配精度,分组是用来将复数个为一个字符串,而反义则能够将否定相关字符串组合为一个。
正则表达式的使用方法特别多,其实质也比较简单,只要掌握基础概念,规则和其它要点,熟练掌握其使用方法,就可以任意操作字符串,进而达到更加专业的文本处理效果。
正则表达式 大全
正则表达式(Regular Expression)是一种强大的文本处理工具,它可以用来匹配、查找、替换符合特定模式的文本。
以下是一些常用的正则表达式元字符和模式:1.\d:匹配任意数字,等价于[0-9]。
2.\D:匹配任意非数字字符。
3.\w:匹配任意字母、数字或下划线字符,等价于[a-zA-Z0-9_]。
4.\W:匹配任意非字母、数字或下划线字符。
5.\s:匹配任意空白字符,包括空格、制表符、换页符等等。
6.\n:匹配换行符。
7..:匹配除换行符之外的任意字符。
8.*:匹配前面的子表达式零次或多次。
9.+:匹配前面的子表达式一次或多次。
10.?:匹配前面的子表达式零次或一次。
11.{n}:n是一个正整数。
匹配确定的n次。
12.{n,}:n是一个正整数。
至少匹配n次。
13.{n,m}:m和n均为正整数。
最少匹配n次且最多匹配m次。
14.^:匹配输入字符串的开始位置。
15.$:匹配输入字符串的结束位置。
16.\b:匹配一个单词边界,也就是一个单词字符和一个非单词字符之间的位置。
17.\B:匹配非单词边界的位置。
18.[]:用来指定一个字符集合,只要用方括号[]把需要的字符括起来,该字符集合中的任意字符都可以用来匹配。
19.():用来分组,以影响如“*”、“+”和“?”等符号的匹配次数及“|”符号的匹配优先权。
20.|:或者的意思,用来指定多个可能的匹配。
21./:在正则表达式中没有特殊意义,只是被作为定界符使用。
22.\:用来转义特殊字符,如“\d”表示匹配数字,“\D”表示匹配非数字字符,“\w”表示匹配字母、数字或下划线,“\W”表示匹配非字母、数字或下划线,“\s”表示匹配空白字符,“\n”表示匹配换行符,“.”表示匹配除换行符之外的任意字符,“^”表示匹配输入字符串的开始位置,“$”表示匹配输入字符串的结束位置,“\b”表示匹配一个单词边界,“\B”表示匹配非单词边界,“[]”表示用来指定一个字符集合,“()”用来分组,“|”表示或者的意思,“/”在正则表达式中没有特殊意义,只是被作为定界符使用,“*”、“+”、“?”、“{n}”、“{n,}”和“{n,m}”等符号也具有特殊意义。
正则表达式例子详解
正则表达式(Regular Expression)是一种强大的文本处理工具,它使用特定的模式来匹配字符串中的文本。
下面是一些正则表达式的例子,并对其进行了详细解释:基础匹配表达式:a解释:这个正则表达式会匹配任何包含字母“a”的字符串。
字符类表达式:[abc]解释:这个正则表达式会匹配任何单个字母“a”、“b”或“c”。
选择、分组和引用表达式:(ab|cd)解释:这个正则表达式会匹配字符串“ab”或“cd”。
括号表示分组,|表示“或”,所以这个正则表达式可以匹配“ab”或“cd”。
预查表达式:(?=abc)解释:这个正则表达式会匹配任何前面是“abc”的字符串。
但请注意,它只是预查,并不会消耗字符,也就是说,它只是检查前面的字符串是否符合后面的模式,但不会移动指针。
后查表达式:(?<=abc)解释:这个正则表达式会匹配任何后面是“abc”的字符串。
和预查一样,它只是检查,并不会消耗字符。
非贪婪匹配表达式:a.*?b解释:这个正则表达式会匹配第一个出现的“b”之前的所有“a”。
点号(.)表示任何字符,星号(*)表示前面的元素可以重复0次或多次,问号(?)表示非贪婪匹配,也就是说它会尽可能少地匹配字符。
所以,这个正则表达式会匹配从第一个“a”到第一个“b”之间的所有字符。
特殊字符表达式:\d解释:这个正则表达式会匹配任何数字。
反斜杠(\)是一个转义字符,所以\d表示数字。
类似的,还有例如\w(匹配任何字母、数字或下划线),\s(匹配任何空白字符),等等。
数量词表达式:a{3,5}解释:这个正则表达式会匹配3个、4个或5个连续的“a”。
大括号表示数量词,它可以指定前面的元素必须出现的次数范围。
锚点表达式:^abc$解释:这个正则表达式只会匹配整个字符串“abc”。
脱字符(^)表示字符串的开始,美元符号($)表示字符串的结束。
所以这个正则表达式只会匹配一个只包含“abc”的字符串。
修饰符表达式:/i(在某些语言中)解释:这个修饰符使匹配对大小写不敏感。
正则表达式语法大全
正则表达式语法大全前言:一般开发中都会接触到正则表达式,作为一名合格的前端,也应该了解一下正则表达式编写原则,便于自己也能快速编写想要的正则表达式。
1、作用(正则表达式是一种字符串匹配的模式)数据验证:比如电话号码、邮箱等替换文本:快速找到特定文本,用于替换快速提取字符串:基于匹配原则,快速从文档中查找或提取子字符串2、语法(普通字符+特殊字符)普通字符[abc] 匹配[...]的所有字符[^abc] 取反,除了[...]的其他字符[A-Z] 区间字母A到Z.匹配除(\n换行符 \r 回车符)的任何单个字符\s \S 匹配所有,\s所有空白符,包括换行 \S非空白符,不包括换行\w 匹配字母、数字、下划线特殊字符$ 结尾位置(匹配$字符----\$)^ 开始位置(匹配$字符----\^)() 子表达式开始和结束(匹配字符----\( 和 \))* 匹配零次或多次(匹配字符----\*)+匹配一次或多次(匹配字符----\+)匹配零次或一次(匹配字符----\?)| 两项间的一个(匹配字符----\|)限定符{n} n为非负整数,匹配n次{n,} n为非负整数,至少n次{n,m} n为非负整数,n<=m,最少n次,最多m次修饰符i 不区分大小写g 全局匹配m 多行匹配s 特殊字符远点包含换行符3、常用场景•16进制颜色/^#([a-fA-F0-9]{6}|[a-fA-F0-9]{3})$/以#开始,6或3个字符(A-F、a-f、0-9)结尾•电话号码/^1(3\d|4[5-9]|5[0-35-9]|6[2567]|7[0-8]|8\d|9[0-35-9])\d{8}$/以1开头,3可跟任一数字(\d),4可跟5-9,5可跟0-3或5-9 ,6后2567其中一个,7后是0-8,8后任一数字,9后是0-3或3-5,其余8位是任意数字(\d{8})•身份证号/^[1-9]\d{5}(19|20|21)\d{2}(0[1-9]|10|11|12)(0[1-9]|[1-2]\d|30|31)\d{3}[\dX]$/ 第一位在0-9区间,后面是5位任意数字,4位年份(19、20、21开头,后两位任意),两位代表月份(0开头的1-9或者是10、11、12),两位日期(01-31),三位顺序码,最后一位是校验码,可数字可X•网址/^((https?):)?\/\/([^?:/]+)(:(\d+))?(\/[^?]*)?(\?(.*))?/•邮箱^[A-Za-z0-9-_\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 名称有汉字([\ue00-\u9fa5])、字母([a-zA-z])、数字、下划线、中划线,域名有数字、字母、下划线、中划线4、使用方法字符串.match(正则):返回符合的字符串,若不满足返回null字符串.search(正则):返回搜索到的位置,若非一个字符,则返回第一个字母的下标,若不匹配则返回-1字符串.replace(正则,新的字符串):找到符合正则的内容并替换正则.test(字符串):在字符串中查找符合正则的内容,满足则返回true,反之为false说明:new RegExp(规则).test(字符串)和上面写法作用相同。
《正则表达式》课件
06
CATALOGUE
正则表达式的扩展与优化
正则表达式的扩展(如Unicode、命名组等)
Unicode支持
正则表达式内置了对Unicode字符集 的支持,可以使用诸如`uXXXX`的语 法来表示任意Unicode字符。
命名组
通过使用命名组,可以将匹配的子模 式进行有意义的命名,方便后续引用 和处理。
正则表达式在线测试工具是一种方便快捷的工具,用于测试 和验证正则表达式的正确性。通过在线测试工具,用户可以 输入正则表达式和测试字符串,并实时查看匹配结果,从而 快速定位问题并进行调整。
常用的正则表达式在线测试工具包括Regex101、RegExr、 RegexPal等。这些工具通常提供丰富的正则表达式语法高亮 显示、匹配模式选择、可视化匹配过程等功能,帮助用户更 好地理解和使用正则表达式。
字符串分割
总结词
正则表达式还可以用于字符串的分割操 作,将一个字符串按照特定的模式分割 成多个部分。
VS
详细描述
在字符串分割中,正则表达式可以用来将 一个字符串按照特定的模式分割成多个部 分。例如,可以使用正则表达式来将一个 包含逗号分隔的字符串分割成多个独立的 元素,或者将一个包含特定分隔符的字符 串分割成多个段落或行。
《正则表达式》 PPT课件
目录
• 正则表达式概述 • 正则表达式的语法规则 • 正则表达式的应用实例 • 正则表达式的常见问题与解决方案 • 正则表达式的工具与库 • 正则表达式的扩展与优化
01
CATALOGUE
正则表达式概述
什么是正则表达式
总结词
正则表达式是一种用于描述字符串中模式的强大工具。
04
CATALOGUE
正则表达式的常见问题与解决方案
正则表达式实用语法大全
正则表达式实用语法大全正则表达式是一种强大的文本匹配和处理工具,它可以用来在字符串中查找、替换和提取特定的模式。
下面是一些常用的正则表达式实用语法:1. 字符匹配。
\d: 匹配数字。
\w: 匹配字母、数字、下划线。
\s: 匹配空白字符。
. : 匹配任意字符。
2. 重复匹配。
: 匹配前面的元素零次或多次。
+ : 匹配前面的元素一次或多次。
: 匹配前面的元素零次或一次。
{n} : 匹配前面的元素恰好n次。
{n,} : 匹配前面的元素至少n次。
{n,m} : 匹配前面的元素至少n次,至多m次。
3. 边界匹配。
^ : 匹配字符串的开头。
$ : 匹配字符串的结尾。
\b : 匹配单词的边界。
4. 分支条件。
| : 匹配多个表达式中的一个。
5. 分组。
( ) : 将表达式分组。
(?: ) : 只匹配不捕获分组。
(?<name> ) : 命名捕获分组。
6. 贪婪与非贪婪。
: 匹配前面的元素零次或多次,尽量少匹配。
+? : 匹配前面的元素一次或多次,尽量少匹配。
: 匹配前面的元素零次或一次,尽量少匹配。
{n,m}? : 匹配前面的元素至少n次,至多m次,尽量少匹配。
7. 反义。
\D : 匹配非数字。
\W : 匹配非字母、数字、下划线。
\S : 匹配非空白字符。
8. 转义字符。
\ : 转义特殊字符。
以上是一些常用的正则表达式实用语法,通过灵活运用这些语法,可以实现对文本的高效处理和匹配。
希望这些内容对你有所帮助。
正则表达式-语法大全
正则表达式-语法⼤全1. 正则表达式规则1.1 普通字符字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是"普通字符"。
表达式中的普通字符,在匹配⼀个字符串的时候,匹配与之相同的⼀个字符。
,匹配结果是:成功;匹配到的内容是:"c";匹配到的位置是:开始于2,结束于3。
(注:下标从0开始还是从1开始,因当前编程语⾔的不同⽽可能不同),匹配结果是:成功;匹配到的内容是:"bcd";匹配到的位置是:开始于1,结束于4。
1.2 简单的转义字符⼀些不便书写的字符,采⽤在前⾯加 "/" 的⽅法。
这些字符其实我们都已经熟知了。
表达式可匹配/r, /n代表回车和换⾏符/t制表符//代表 "/" 本⾝还有其他⼀些在后边章节中有特殊⽤处的标点符号,在前⾯加 "/" 后,就代表该符号本⾝。
⽐如:^, $ 都有特殊意义,如果要想匹配字符串中 "^" 和 "$" 字符,则表达式就需要写成 "/^" 和 "/$"。
表达式可匹配/^匹配 ^ 符号本⾝/$匹配 $ 符号本⾝/.匹配⼩数点(.)本⾝这些转义字符的匹配⽅法与 "普通字符" 是类似的。
也是匹配与之相同的⼀个字符。
,匹配结果是:成功;匹配到的内容是:"$d";匹配到的位置是:开始于3,结束于5。
1.3 能够与 '多种字符' 匹配的表达式正则表达式中的⼀些表⽰⽅法,可以匹配 '多种字符' 其中的任意⼀个字符。
⽐如,表达式 "/d" 可以匹配任意⼀个数字。
虽然可以匹配其中任意字符,但是只能是⼀个,不是多个。
这就好⽐玩扑克牌时候,⼤⼩王可以代替任意⼀张牌,但是只能代替⼀张牌。
20个常用的正则表达式
20个常用的正则表达式摘要:1.正则表达式的概念2.为什么需要正则表达式3.20 个常用的正则表达式a.匹配数字b.匹配字母c.匹配字符串d.匹配空白字符e.匹配特殊字符f.匹配范围g.匹配零次或多次h.匹配一次或多次i.匹配两次或多次j.匹配正则表达式k.匹配非正则表达式l.匹配开头m.匹配结尾n.匹配子字符串o.匹配连续字符p.匹配非连续字符q.匹配可选字符r.匹配分组s.匹配替换t.匹配转义字符u.匹配反向引用v.匹配贪婪与懒惰匹配w.匹配并匹配下一个字符x.匹配字符集合y.匹配字符范围z.匹配Unicode 字符正文:正则表达式是一种强大的文本处理工具,它可以用来检查文本是否符合某种模式、提取文本中的特定部分或者替换文本中的某些内容。
在Python 等编程语言中,正则表达式被广泛应用于文本分析、网页抓取、数据分析等领域。
本文将介绍20 个常用的正则表达式,帮助你更好地掌握正则表达式的使用。
1.匹配数字:`d` 匹配任意数字,`d+` 匹配一个或多个数字,`d{3}` 匹配三个数字。
2.匹配字母:`[a-zA-Z]` 匹配任意字母,`[a-zA-Z]+` 匹配一个或多个字母,`[a-zA-Z]{3}` 匹配三个字母。
3.匹配字符串:`".*"` 匹配任意字符串,`".*?"` 匹配一个或多个字符串,`".*?{"` 匹配一个包含在大括号内的字符串。
4.匹配空白字符:`s` 匹配任意空白字符,包括空格、制表符、换行符等,`s+` 匹配一个或多个空白字符。
5.匹配特殊字符:`[!@#$%^&*(),.?":{}|<>]` 匹配任意特殊字符。
6.匹配范围:`-` 匹配数字范围,如`d-` 匹配0-9 的数字,`[a-zA-Z]` 匹配所有字母。
7.匹配零次或多次:`*` 匹配前面的字符出现零次或多次,如`d*` 匹配零个或多个数字。
20个常用的正则表达式 单字母
正则表达式(Regular Expression)是一种用于匹配字符串的强大工具。
它通过使用特定的符号和字符来描述和匹配一系列字符串,能够满足我们在处理文本时的各种需求。
在这篇文章中,我们将深入探讨20个常用的单字母正则表达式,并通过实例来展示它们的使用方法。
1. \b在正则表达式中,\b表示单词的边界。
它可以用来匹配单词的开头或结尾,用于查找特定单词而不是单词的一部分。
2. \d\d表示任意一个数字字符。
它可以用来匹配任何数字,例如\d+可以匹配一个或多个数字字符。
3. \w\w表示任意一个字母、数字或下划线字符。
它可以用来匹配单词字符,例如\w+可以匹配一个或多个单词字符。
4. \s\s表示任意一个空白字符,包括空格、制表符、换行符等。
它可以用来匹配空白字符,例如\s+可以匹配一个或多个空白字符。
5. \.\.表示匹配任意一个字符,包括标点符号和空格等。
它可以用来匹配任意字符,例如\.可以匹配任意一个字符。
6. \A\A表示匹配字符串的开始。
它可以用来确保匹配发生在字符串的开头。
7. \Z\Z表示匹配字符串的结束。
它可以用来确保匹配发生在字符串的结尾。
8. \b\b表示单词的边界。
它可以用来匹配单词的开头或结尾,用于查找特定单词而不是单词的一部分。
9. \D\D表示任意一个非数字字符。
它可以用来匹配任何非数字字符。
10. \W\W表示任意一个非单词字符。
它可以用来匹配任何非单词字符。
11. \S\S表示任意一个非空白字符。
它可以用来匹配任何非空白字符。
12. \[\[表示匹配方括号。
它可以用来匹配包含在方括号内的字符。
13. \]\]表示匹配方括号。
它可以用来匹配包含在方括号内的字符。
14. \(\(表示匹配左括号。
它可以用来匹配包含在左括号内的字符。
15. \)\)表示匹配右括号。
它可以用来匹配包含在右括号内的字符。
16. \{\{表示匹配左花括号。
它可以用来匹配包含在左花括号内的字符。
17. \}\}表示匹配右花括号。
正则表达式介绍
正则表达式介绍正则表达式是一种强大的文本处理工具,它用于匹配、查找和替换文本中的模式。
它是一种特殊的语法,可以用于描述字符串的结构和内容。
在日常工作中,我们经常需要处理各种各样的文本数据,比如文本文件、数据库中的数据、网页中的内容等。
而正则表达式正是将这些文本数据进行有效处理的利器。
正则表达式的语法非常丰富,包含了大量的元字符和语法规则。
下面我们就来介绍一些常见的元字符和语法规则。
元字符元字符是正则表达式中的基本单位,它用于表示某种特殊的文本字符或字符集。
下面是一些常见的元字符:1. . :用于匹配任意一个字符,除了换行符(\n)。
2. ^ :用于匹配字符串的开头。
3. $ :用于匹配字符串的结尾。
4. * :用于匹配前面的字符出现0次或多次。
5. + :用于匹配前面的字符出现1次或多次。
6. ? :用于匹配前面的字符出现0次或1次。
7. | :用于表示或者的关系。
语法规则除了元字符之外,正则表达式还包含了许多语法规则。
下面是一些常见的语法规则:1. 字符集:方括号([])内表示要匹配的字符集,可以使用连字符(-)表示范围。
比如[0-9]表示匹配0到9之间的任意数字。
2. 分组:用小括号()来把多个元字符组合起来,形成一个整体。
比如(ab)+表示匹配一个或多个连续的"ab"。
3. 反向引用:用反斜杠(\)加数字来引用前面的分组。
比如(\w)\1表示匹配出现两次的任意单词字符。
4. 贪婪/非贪婪:在元字符后面加上问号(?)可以实现非贪婪模式。
比如.*?表示匹配尽可能少的任意字符。
5. 零宽度断言:用于限定匹配的位置,但不会消耗任何字符。
比如正向预查(?=)表示必须跟着某个模式,但不包含该模式;负向预查(?!)表示必须不跟着某个模式。
应用实例下面我们通过一些实例来演示正则表达式的应用:1. 匹配手机号码:^(13\d|14[579]|15[^4\D]|17[^49\D]|18\d)\d{8}$2. 匹配IP地址:^([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])$3. 匹配邮箱地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$4. 匹配HTML标签:<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>结语正则表达式是一个非常强大的工具,可以用于各种各样的文本处理任务。
正则表达式详解
正则表达式详解正则表达式1.什么是正则表达式简单的说,正则表达式是一种可以用于文字模式匹配和替换的强有力的工具。
是由一系列普通字符和特殊字符组成的能明确描述文本字符串的文字匹配模式。
正则表达式并非一门专用语言,但也可以看作是一种语言,它可以让用户通过使用一系列普通字符和特殊字符构建能明确描述文本字符串的匹配模式。
除了简单描述这些模式之外,正则表达式解释引擎通常可用于遍历匹配,并使用模式作为分隔符来将字符串解析为子字符串,或以智能方式替换文本或重新设置文本格式。
正则表达式为解决与文本处理有关的许多常见任务提供了有效而简捷的方式。
正则表达式具有两种标准:·基本的正则表达式(BRE –Basic Regular Expressions)·扩展的正则表达式(ERE – Extended Regular Expressions)。
ERE包括BRE功能和另外其它的概念。
正则表达式目前有两种解释引擎:·基于字符驱动(text-directed engine)·基于正则表达式驱动(regex-directed engine)Jeffery Friedl把它们称作DFA和NFA解释引擎。
约定:为了描述起来方便,在本文中做一些约定:1.本文所举例的所有表达时都是基于NFA解释引擎的。
2.正则表达式,也就是匹配模式,会简写为Regex。
3. Regex的匹配目标,也就是目标字符串,会简写为String。
4.匹配结果用会用黄色底色标识。
5.用1\+1=2 括起来的表示这是一个regex。
6.举例会用以下格式:testThis is a test会匹配test,testcase等2.正则表达式的起源正则表达式的”祖先”可以一直上溯至对人类神经系统如何工作的早期研究。
Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。
正则表达式语法
正则表达式语法正则表达式是一种文本模式,包括普通字符(例如,a 到z 之间的字母)和特殊字符(称为“元字符”)。
模式描述在搜索文本时要匹配的一个或多个字符串。
正则表达式示例下表包含了元字符的完整列表以及它们在正则表达式上下文中的行为:优先级顺序正则表达式从左到右进行计算,并遵循优先级顺序,这与算术表达式非常类似。
运算符下表从最高到最低说明了各种正则表达式运算符的优先级顺序:字符具有高于替换运算符的优先级,使得“m|food”匹配“m”或“food”。
若要匹配“mood”或“food”,请使用括号创建子表达式,从而产生“(m|f)ood”。
特殊字符许多元字符要求在试图匹配它们时特别对待。
若要匹配这些特殊字符,必须首先使字符“转义”,即,将反斜杠字符(\) 放在它们前面。
下表列出了特殊字符以及它们的含义:特殊字符表不可打印字符非打印字符也可以是正则表达式的组成部分。
下表列出了表示非打印字符的转义序列:转义序列字符匹配句点(.) 匹配字符串中的各种打印或非打印字符,只有一个字符例外。
这个例外就是换行符(\n)。
下面的正则表达式匹配aac、abc、acc、adc等等,以及a1c、a2c、a-c 和a#c:/a.c/若要匹配包含文件名的字符串,而句点(.) 是输入字符串的组成部分,请在正则表达式中的句点前面加反斜扛(\) 字符。
举例来说明,下面的正则表达式匹配filename.ext:/filename\.ext/这些表达式只让您匹配“任何”单个字符。
可能需要匹配列表中的特定字符组。
例如,可能需要查找用数字表示的章节标题(Chapter 1、Chapter 2 等等)。
中括号表达式若要创建匹配字符组的一个列表,请在方括号([ 和])内放置一个或更多单个字符。
当字符括在中括号内时,该列表称为“中括号表达式”。
与在任何别的位置一样,普通字符在中括号内表示其本身,即,它在输入文本中匹配一次其本身。
大多数特殊字符在中括号表达式内出现时失去它们的意义。
正则表达式语法或者符号语法
正则表达式语法或者符号语法正则表达式是一种用于匹配字符串的模式,通常用于文本搜索、替换和验证等操作。
它是由一些特殊字符和元字符组成的语法,用于描述字符串的结构和模式。
正则表达式的基本符号包括:1. 点号(.):匹配任意单个字符,除了换行符。
2. 加号(+):匹配前面的子表达式一次或多次。
3. 星号(*):匹配前面的子表达式零次或多次。
4. 问号(?):匹配前面的子表达式零次或一次。
5. 方括号([]):定义一个字符集合,匹配其中的任意一个字符。
6. 大括号({}):定义一个重复次数的范围,匹配指定次数的前面的子表达式。
7. 圆括号(()):将多个表达式组合成一个整体,用于分组或优先级控制。
8. 竖线(|):表示逻辑“或”,匹配左右两边的任意一个表达式。
9. 反斜杠(\):转义特殊字符,使其失去特殊含义。
10. 插入符号(^):匹配字符串的开头。
11. $符号:匹配字符串的结尾。
12. 百分号(%):匹配任意数量的非换行字符。
13. 数字符号(\d):匹配任意数字字符,等同于[0-9]。
14. 字母符号(\w):匹配任意字母、数字或下划线字符,等同于[A-Za-z0-9_]。
15. 空白符号(\s):匹配任意空白字符,包括空格、制表符、换行符等。
16. 非空白符号(\S):匹配任意非空白字符。
17. 单词边界符号(b):匹配单词的边界,即字母、数字或下划线字符与非字母、非数字、非下划线字符之间的边界。
18. Unicode属性符号(p{Property}):匹配Unicode属性,如汉字、字母等。
以上是正则表达式的一些基本符号,通过这些符号的组合可以构建出复杂的模式来匹配各种字符串。
以下是一些常用的正则表达式语法:1. 字符匹配:直接使用字符进行匹配,例如`a`可以匹配字符"a",`abc`可以匹配字符串"abc"。
2. 点号通配符:`.`可以匹配任何单个字符(除换行符外),`\.`可以匹配实际的点号字符。
正则表达式知识详解
正则表达式知识详解⼀、什么是正则表达式?1.定义:正则表达式(regular expression)描述了⼀种字符串匹配的模式,可以⽤来检查⼀个串是否含有某种⼦串、将匹配的⼦串做替换或者从某个串中取出符合某个条件的⼦串等。
构造正则表达式的⽅法和创建数学表达式的⽅法⼀样。
也就是⽤多种元字符与运算符可以将⼩的表达式结合在⼀起来创建更⼤的表达式。
正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。
2.组成:正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的⽂字模式。
模式描述在搜索⽂本时要匹配的⼀个或多个字符串。
正则表达式作为⼀个模板,将某个字符模式与所搜索的字符串进⾏匹配。
3.何时使⽤:验证——从头到尾完整匹配!查找——只要部分匹配即可!⼆、正则表达式的基本语法和规则1.备选字符集:规定某*⼀位字符*可⽤的备选字符的集合语法:[可选字符列表]强调:1. ⽆论备选字符集包含多少字符,只能选1个2. 必须选1个!⽐如:6位数字的密码[0123456789][0123456789][0123456789][0123456789][0123456789][0123456789]简化:1. 当备选字符连续时,可⽤-表⽰范围的区间⽐如:[0123456789]-->[0-9][0-9][0-9][0-9][0-9][0-9][0-9][a-z]-->1位⼩写字母[A-Z]-->1位⼤写字母[A-Za-z]-->1位字母,⼤⼩写都⾏[0-9a-zA-Z]-->1位字母或数字都⾏反选:[^不能选的字符列表]⽐如:[^47] 强调:^作“除了”使⽤时,只能放在开头2. 预定义字符集:为常⽤的字符集专门提供的简化写法!“\d”-->[0-9]-->1位数字“\w”-->[0-9a-zA-Z_]-->1位字母,数字或_“\s”-->1位空字符:匹配任何空⽩字符,包括空格、制表符、换页符等等。
最全的常用正则表达式大全
最全的常⽤正则表达式⼤全⼀、校验数字的表达式1 数字:^[0-9]*$2 n位的数字:^\d{n}$3 ⾄少n位的数字:^\d{n,}$4 m-n位的数字:^\d{m,n}$5 零和⾮零开头的数字:^(0|[1-9][0-9]*)$6 ⾮零开头的最多带两位⼩数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$7 带1-2位⼩数的正数或负数:^(\-)?\d+(\.\d{1,2})?$8 正数、负数、和⼩数:^(\-|\+)?\d+(\.\d+)?$9 有两位⼩数的正实数:^[0-9]+(.[0-9]{2})?$10 有1~3位⼩数的正实数:^[0-9]+(.[0-9]{1,3})?$11 ⾮零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$12 ⾮零的负整数:^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$13 ⾮负整数:^\d+$ 或 ^[1-9]\d*|0$14 ⾮正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$15 ⾮负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$16 ⾮正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$17 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$18 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$19 浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$⼆、校验字符的表达式1 汉字:^[\u4e00-\u9fa5]{0,}$2 英⽂和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$3 长度为3-20的所有字符:^.{3,20}$4 由26个英⽂字母组成的字符串:^[A-Za-z]+$5 由26个⼤写英⽂字母组成的字符串:^[A-Z]+$6 由26个⼩写英⽂字母组成的字符串:^[a-z]+$7 由数字和26个英⽂字母组成的字符串:^[A-Za-z0-9]+$8 由数字、26个英⽂字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$9 中⽂、英⽂、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$10 中⽂、英⽂、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$11 可以输⼊含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+12 禁⽌输⼊含有~的字符:[^~\x22]+三、特殊需求表达式1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$4 ⼿机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$6 国内电话号码(0511-*******、021-********):\d{3}-\d{8}|\d{4}-\d{7}7 ⾝份证号(15位、18位数字):^\d{15}|\d{18}$8 短⾝份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$11 强密码(必须包含⼤⼩写字母和数字的组合,不能使⽤特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$12 ⽇期格式:^\d{4}-\d{1,2}-\d{1,2}13 ⼀年的12个⽉(01~09和1~12):^(0?[1-9]|1[0-2])$14 ⼀个⽉的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$15 钱的输⼊格式:16 1.有四种钱的表⽰形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$17 2.这表⽰任意⼀个不以0开头的数字,但是,这也意味着⼀个字符"0"不通过,所以我们采⽤下⾯的形式:^(0|[1-9][0-9]*)$18 3.⼀个0或者⼀个不以0开头的数字.我们还可以允许开头有⼀个负号:^(0|-?[1-9][0-9]*)$19 4.这表⽰⼀个0或者⼀个可能为负的开头不为0的数字.让⽤户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下⾯我们要加的是说明可能的⼩数部分:^[0-9]+(.[0-9]+)?$20 5.必须说明的是,⼩数点后⾯⾄少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$21 6.这样我们规定⼩数点后⾯必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$22 7.这样就允许⽤户只写⼀位⼩数.下⾯我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$23 8.1到3个数字,后⾯跟着任意个逗号+3个数字,逗号成为可选,⽽不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$24 备注:这就是最终结果了,别忘了"+"可以⽤"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在⽤函数时去掉去掉那个反斜杠,⼀般的错误都在这⾥25 xml⽂件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$26 中⽂字符的正则表达式:[\u4e00-\u9fa5]27 双字节字符:[^\x00-\xff] (包括汉字在内,可以⽤来计算字符串的长度(⼀个双字节字符长度计2,ASCII字符计1))28 空⽩⾏的正则表达式:\n\s*\r (可以⽤来删除空⽩⾏)29 HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (⽹上流传的版本太糟糕,上⾯这个也仅仅能部分,对于复杂的嵌套标记依旧⽆能为⼒)30 ⾸尾空⽩字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以⽤来删除⾏⾸⾏尾的空⽩字符(包括空格、制表符、换页符等等),⾮常有⽤的表达式)31 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)32 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字) 33 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有⽤) 34 IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))20个正则表达式必知(能让你少写1,000⾏代码)正则表达式(regular expression)描述了⼀种字符串匹配的模式,可以⽤来检查⼀个串是否含有某种⼦串、将匹配的⼦串做替换或者从某个串中取出符合某个条件的⼦串等。
常用正则表达式
常用正则表达式正则表达式是一种用于查找和替换文本字符串的强大工具,它能够有效地检测和处理字符串中的模式。
它们被广泛应用于编程语言、文本编辑器、网页开发器和其他软件工具中,以满足各种应用的需求。
正则表达式的出现使得我们可以快速查找和替换字符串中的特定模式。
它们可以简化搜索、提取、编辑和替换文本的工作,从而大大提高工作效率。
本文将针对正则表达式,深入讨论它的语法、用法和常见问题,并总结一些常用的正则表达式。
一、正则表达式语法正则表达式使用一种特殊的语法结构来表达文本字符串的模式,称为“正则表达式语法”。
语法结构由普通字符和“元字符”两部分组成,其中元字符用于指示文本字符串的模式,普通字符表示要查找的文本字符串。
正则表达式语法是由以下几个原则组成的:(1)普通字符。
普通字符会被原样匹配。
例如,在正则表达式中输入字符“a”将仅匹配文本中的“a”字符;(2)元字符。
元字符用于描述文本字符串的模式。
它们是正则表达式语法中最重要的部分,常用的元字符有“*”、“+”、“?”、“()”等符号;(3)字符组(Character Class)。
字符组用于指定一个字符集合,可以搜索任何在该字符集合中的字符,例如“[0-9]”将搜索任何数字;(4)字符范围(Character Ranges)。
字符范围用于指定一个连续的字符集合,例如“a-z”将搜索所有小写字母;(5)量词(Quantifiers)。
量词用于指定字符出现的次数,例如“*”表示字符可以出现任意次数,“+”表示字符至少要出现一次;(6)分组(Groups)。
分组可以将一个模式的不同部分分开,例如“(abc)”将abc分成三个模式;(7)反义(Anchors)。
反义用于指定非指定字符的模式,例如“^”表示任何非数字的字符;(8)转义(Escapes)。
转义符可以将特殊字符转换为普通字符,例如“”将使“”变为普通字符。
二、正则表达式用法正则表达式可以用于各种文本处理任务,如搜索、提取、编辑和替换等。
c++ regex正则表达式
正则表达式是一种强大的文本匹配和替换工具,具有广泛的应用领域。
在C++编程语言中,正则表达式提供了丰富的库支持,使得开发人员可以轻松地进行复杂的文本处理操作。
本文将介绍C++中正则表达式的基本概念、语法和常见用法,帮助读者更好地掌握和应用正则表达式。
一、正则表达式概述正则表达式是一种用于描述字符串模式的表达式,可以用来进行文本的匹配、查找和替换操作。
通过使用一些特定的符号和语法规则,可以方便地表达各种复杂的文本模式,包括匹配特定的字符、数字、空白字符、重复模式等。
在C++中,正则表达式的支持是通过标准库中的regex头文件来实现的。
该头文件中提供了一系列用于正则表达式操作的类和函数,方便开发人员进行正则表达式的处理和操作。
二、基本语法1.引入头文件在使用正则表达式之前,首先需要引入regex头文件,以便使用其中的类和函数。
引入头文件的语句如下:#include <regex>2.正则表达式对象在C++中,使用std::regex类来表示正则表达式对象,通过该对象可以进行匹配、查找和替换等操作。
下面是一个示例:std::regex pattern("abc");在这个例子中,我们创建了一个正则表达式模式,用于匹配包含"abc"子串的字符串。
3.正则匹配使用std::regex_match函数可以对字符串进行正则匹配,并返回匹配结果。
示例如下:std::string str = "abcdef";if (std::regex_match(str, pattern)) {// 匹配成功}4.正则搜索使用std::regex_search函数可以在字符串中搜索匹配的子串,并返回匹配结果的位置。
示例如下:std::string str = "abcdabef";std::smatch match;if (std::regex_search(str, match, pattern)) {// 找到匹配的子串std::cout << "匹配位置:" << match.position() << std::endl; }5.正则替换使用std::regex_replace函数可以对字符串进行正则替换操作。
re 正则语法
re 正则语法正则表达式(Regular Expression,简称regex或regexp)是一种强大的文本处理工具,它使用特定的字符和规则来表示模式。
通过正则表达式,可以匹配、查找、替换、分割等处理字符串。
以下是 re 正则表达式的语法规则:1. 普通字符:正则表达式中的普通字符(例如字母、数字、下划线等)表示它们自身。
例如,字符串 "a" 匹配文本中的 "a" 字符。
2. 元字符:正则表达式中有一些特殊字符,称为元字符。
它们具有特殊的含义,用于表示模式。
常见的元字符包括:`.`:匹配除换行符以外的任意字符。
`^`:匹配字符串的开头。
`$`:匹配字符串的结尾。
``:表示前面的字符可以出现零次或多次。
`+`:表示前面的字符必须出现一次或多次。
`?`:表示前面的字符出现零次或一次。
`{n}`:表示前面的字符出现 n 次。
`{n,}`:表示前面的字符出现 n 次或更多次。
`{n,m}`:表示前面的字符出现至少 n 次,但不超过 m 次。
3. 字符类:使用方括号 `[]` 可以定义一个字符类,表示匹配方括号内的任意一个字符。
例如,`[abc]` 表示匹配 "a"、"b" 或 "c"。
还可以使用 `^` 表示不在某个字符类中,例如 `[^abc]` 表示匹配除 "a"、"b"、"c" 以外的任意字符。
4. 选择符:使用竖线 `` 可以表示选择关系,即匹配左边或右边的模式。
例如,`abcd` 表示匹配 "ab" 或 "cd"。
5. 转义字符:如果要匹配元字符本身,可以使用反斜杠`\` 进行转义。
例如,`\.` 表示匹配点号 `.`。
6. 贪婪匹配与非贪婪匹配:默认情况下,正则表达式采用贪婪模式进行匹配,即尽可能多地匹配字符。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ruby中常会用到正则表达式。
正则表达式是用来表达字符串的模式(pattern)的。
也可以这么理解:我们使用正则表达式来表示某种搜索规则,然后使用该正则表达式来完成字符串的搜索工作。
举个例子,假定有这样的搜索规则:“字符串以’FOO’开始,以’R’结束”,那么就可以使用以下正则表达式来表示该规则。
/^FOO.*R$/
Ruby用//将正则表达式括起来。
^表示开头,$表示结尾,.*表示0个以上的任意字符。
现在就讲讲正则表达式的规则的写法。
正则表达式中有很多上述的具有特别意义的字符。
首先是下列字符。
字符说明
^ 匹配输入字符串的开始位置。
要匹配"^" 字符本身,请使用"\^"
$ 匹配输入字符串的结尾位置。
要匹配"$" 字符本身,请使用"\$"
( ) 标记一个子表达式的开始和结束位置。
要匹配小括号,请使用"\(" 和"\)"
[ ] 用来自定义能够匹配'多种字符' 的表达式。
要匹配中括号,请使用"\[" 和"\]"
{ } 修饰匹配次数的符号。
要匹配大括号,请使用"\{" 和"\}"
. 匹配除了换行符(\n)以外的任意一个字符。
要匹配小数点本身,请使用"\."
? 修饰匹配次数为0 次或1 次。
要匹配"?" 字符本身,请使用"\?"
+ 修饰匹配次数为至少1 次。
要匹配"+" 字符本身,请使用"\+"
* 修饰匹配次数为0 次或任意次。
要匹配"*" 字符本身,请使用"\*"
| 左右两边表达式之间"或" 关系。
匹配"|" 本身,请使用"\|"
表达式作用
{n} 表达式重复n次,比如:"\w{2}" 相当于"\w\w";"a{5}" 相当于"aaaaa"
{m,n} 表达式至少重复m次,最多重复n次,比如:"ba{1,3}"可以匹配"ba"或"baa"或"baaa" {m,} 表达式至少重复m次,比如:"\w\d{2,}"可以匹配"a12","_456","M12344"...
? 匹配表达式0次或者1次,相当于{0,1},比如:"a[cd]?"可以匹配"a","ac","ad"
+ 表达式至少出现1次,相当于{1,},比如:"a+b"可以匹配"ab","aab","aaab"...
* 表达式不出现或出现任意次,相当于{0,},比如:"\^*b"可以匹配"b","^^^b"...
表达式可匹配
[ab5@] 匹配"a" 或"b" 或"5" 或"@"
[^abc] 匹配"a","b","c" 之外的任意一个字符
[f-k] 匹配"f"~"k" 之间的任意一个字母
[^A-F0-3] 匹配"A"~"F","0"~"3" 之外的任意一个字符
假设我们要在文本文件中搜索美国的社会安全号码。
这个号码的格式是999-99-9999。
用来匹配它的正则表达式如图一所示。
在正则表达式中,连字符(“-”)有着特殊的意义,它表示一个范围,比如从0到9。
因此,匹配社会安全号码中的连字符号时,它的前面要加上一个转义字符“\”。
图一:匹配所有123-12-1234形式的社会安全号码
假设进行搜索的时候,你希望连字符号可以出现,也可以不出现——即,999-99-9999和999999999都属于正确的格式。
这时,你可以在连字符号后面加上“?”数量限定符号,如图二所示:
图二:匹配所有123-12-1234和123121234形式的社会安全号码
下面我们再来看另外一个例子。
美国汽车牌照的一种格式是四个数字加上二个字母。
它的正则表达式前面是数字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。
图三显示了完整的正则表达式。
图三:匹配典型的美国汽车牌照号码,如8836KV
1.5 “否”符号
“^”符号称为“否”符号。
如果用在方括号内,“^”表示不想要匹配的字符。
例如,图四的正则表达式匹配所有单词,但以“X”字母开头的单词除外。
图四:匹配所有单词,但“X”开头的除外
1.6 圆括号和空白符号
假设要从格式为“June 26, 1951”的生日日期中提取出月份部分,用来匹配该日期的正则表达式可以如图五所示:
执行这个搜索的正则表达式如图十三所示:
图五:匹配所有Moth DD,YYYY格式的日期
新出现的“\s”符号是空白符号,匹配所有的空白字符,包括Tab字符。
如果字符串正确匹配,接下来如何提取出月份部分呢?只需在月份周围加上一个圆括号创建一个组,然后用ORO API(本文后面详细讨论)提取出它的值。
修改后的正则表达式如图六所示:
图六:匹配所有Month DD,YYYY格式的日期,定义月份值为第一个组。