正则表达式

合集下载

常用的正则表达式

常用的正则表达式

常用的正则表达式整理1、非负整数:^\d+$2、正整数:^[0-9]*[1-9][0-9]*$3、非正整数:^((-\d+)|(0+))$4、负整数:^-[0-9]*[1-9][0-9]*$5、整数:^-?\d+$6、非负浮点数:^\d+(\.\d+)?$7、正浮点数:^((0-9)+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)) $8、非正浮点数:^((-\d+\.\d+)?)|(0+(\.0+)?))$9、负浮点数:^(-((正浮点数正则式)))$10、英文字符串:^[A-Za-z]+$11、英文大写串:^[A-Z]+$12、英文小写串:^[a-z]+$13、英文字符数字串:^[A-Za-z0-9]+$14、英数字加下划线串:^\w+$15、E-mail地址:^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$16、URL:^[a-zA-Z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\s*)?$或:^http:\/\/[A-Za-z0-9]+\.[A-Za-z0-9]+[\/=\?%\-&_~`@[\]\':+!]*([^<>\"\"])*$17、邮政编码:^[1-9]\d{5}$18、中文:^[\u0391-\uFFE5]+$19、电话号码:^((\(\d{2,3}\))|(\d{3}\-))?(\(0\d{2,3}\)|0\d{2,3}-)?[1-9]\d{6,7}(\-\d{1,4})?$ 20、手机号码:^((\(\d{2,3}\))|(\d{3}\-))?13\d{9}$21、双字节字符(包括汉字在内):^\x00-\xff22、匹配首尾空格:(^\s*)|(\s*$)(像vbscript那样的trim函数)23、匹配HTML标记:<(.*)>.*<\/\1>|<(.*) \/>24、匹配空行:\n[\s| ]*\r25、提取信息中的网络链接:(h|H)(r|R)(e|E)(f|F) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?26、提取信息中的邮件地址:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*27、提取信息中的图片链接:(s|S)(r|R)(c|C) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?28、提取信息中的IP地址:(\d+)\.(\d+)\.(\d+)\.(\d+)29、提取信息中的中国手机号码:(86)*0*13\d{9}30、提取信息中的中国固定电话号码:(\(\d{3,4}\)|\d{3,4}-|\s)?\d{8}31、提取信息中的中国电话号码(包括移动和固定电话):(\(\d{3,4}\)|\d{3,4}-|\s)?\d{7,14}32、提取信息中的中国邮政编码:[1-9]{1}(\d+){5}33、提取信息中的浮点数(即小数):(-?\d*)\.?\d+34、提取信息中的任何数字:(-?\d*)(\.\d+)?35、IP:(\d+)\.(\d+)\.(\d+)\.(\d+)36、电话区号:/^0\d{2,3}$/37、腾讯QQ号:^[1-9]*[1-9][0-9]*$38、帐号(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$匹配中文字符的正则表达式:[\u4e00-\u9fa5]匹配双字节字符(包括汉字在内):[^\x00-\xff]匹配空行的正则表达式:\n[\s| ]*\r匹配HTML标记的正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/ 匹配首尾空格的正则表达式:(^\s*)|(\s*$)匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*匹配网址URL的正则表达式:^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S *)?$匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$匹配国内电话号码:(\d{3}-|\d{4}-)?(\d{8}|\d{7})?匹配腾讯QQ号:^[1-9]*[1-9][0-9]*$下表是元字符及其在正则表达式上下文中的行为的一个完整列表:\将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。

正则表达式150种表达方式

正则表达式150种表达方式

正则表达式150种表达方式1、删除所有数字。

只要查找:\d就OK。

为了不留空行:替换处:\d2、删除所有英文字母。

只要查找:\a就OK。

为了不留空行:替换处:\d3、删除除换行符以外的所有。

只要查找:. 为了不留空行:替换处:\d4、既删除英文字母又删除数字。

只要查找:\w。

为了不留空行:替换处:\d5、删除数字加字母加等于(如:3a=或3zz=)只要查找:\d+\a+\=。

为了不留空行:替换处:\d6、删除换行。

只要查找:$。

替换处:\d(还原查找:\a+=\f。

替换:\0\n)。

如在换行后加一空格,查找:(\a)$。

替换:\0 \d。

7、删除空行只要查找:^$。

为了不留空行:替换处:\d8、删除首尾空格。

只要查找:^\s*|\s*$就OK9、删除行前数字及顿号。

只要查找:\d+、替换为空10、删除末尾标点符号。

只要查找:\P+$|\P+\s+$,“|”前面是没有空格的,“|”后面有空格,P后的加是为了……而用的。

11、删除末尾空格。

只要查找:\s+$。

替换为空。

12、删除第一个字如:“的我们”中的“的”只要查找:^\的。

13、删除第几个字。

查找:查找:^().(.+)。

替换:\1\2。

去掉前面的拼音:查找:^\a+替换为空。

第一个括号里可加“.”且可变。

14、删含的。

查:.*的.*替:\d。

的头查:.*=的.*替:\d。

的尾查:\a.*\c.*的$替:\d(留它不匹配)●删非的行查:^[^的]+$替:\d15、删除几码以上的码查:^(...)...替:\1。

删第几位码。

查:^(...).(.+)替:\1\2(变成\1,\2则其位则改成,了)首括号的.可变。

16、删除各类型的几字词,但必须是码前词后或纯词。

三字词:查找:^\~f{}\f{3}$替换:\d。

替换:\d “3”可以改。

17、删除11字词及其以上的词条查找(自定义格式):\a{}\=(\c|\P|\p){11,}。

替换:\d。

11可改。

《正则表达式》课件

《正则表达式》课件

06
CATALOGUE
正则表达式的扩展与优化
正则表达式的扩展(如Unicode、命名组等)
Unicode支持
正则表达式内置了对Unicode字符集 的支持,可以使用诸如`uXXXX`的语 法来表示任意Unicode字符。
命名组
通过使用命名组,可以将匹配的子模 式进行有意义的命名,方便后续引用 和处理。
正则表达式在线测试工具是一种方便快捷的工具,用于测试 和验证正则表达式的正确性。通过在线测试工具,用户可以 输入正则表达式和测试字符串,并实时查看匹配结果,从而 快速定位问题并进行调整。
常用的正则表达式在线测试工具包括Regex101、RegExr、 RegexPal等。这些工具通常提供丰富的正则表达式语法高亮 显示、匹配模式选择、可视化匹配过程等功能,帮助用户更 好地理解和使用正则表达式。
字符串分割
总结词
正则表达式还可以用于字符串的分割操 作,将一个字符串按照特定的模式分割 成多个部分。
VS
详细描述
在字符串分割中,正则表达式可以用来将 一个字符串按照特定的模式分割成多个部 分。例如,可以使用正则表达式来将一个 包含逗号分隔的字符串分割成多个独立的 元素,或者将一个包含特定分隔符的字符 串分割成多个段落或行。
《正则表达式》 PPT课件
目录
• 正则表达式概述 • 正则表达式的语法规则 • 正则表达式的应用实例 • 正则表达式的常见问题与解决方案 • 正则表达式的工具与库 • 正则表达式的扩展与优化
01
CATALOGUE
正则表达式概述
什么是正则表达式
总结词
正则表达式是一种用于描述字符串中模式的强大工具。
04
CATALOGUE
正则表达式的常见问题与解决方案

常用正则表达式大全!(例如:匹配中文、匹配html)

常用正则表达式大全!(例如:匹配中文、匹配html)
说明: //u0000-u00ff.包含unicode单字节编码( 0-255编码)包含基本控制字符和拉丁文字母。 采用该否定表达式,粗略判断是否含有中文。
具体的匹配中文及字符方法:/[\u4E00-\u9FA5\uF900-\uFA2D]/
说明: u4e00-u9fbf : unicode CJK(中日韩)统一表意字符。u9fa5后至u9fbf为空
匹配双字节字符(包括汉字在内):[^x00-xff]
匹配空行的正则表达式:n[s| ]*r
匹配HTML标记的正则表达式:/<(.*)>.*|<(.*) />/
匹配首尾空格的正则表达式:(^s*)|(s*$)
匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
(5)应用:利用正则表达式限制网页表单里的文本框输入内容
用正则表达式限制只能输入中文:onkeyup="value=value.replace(/[^u4E00-u9FA5]/g,'') "onbeforepaste="clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^u4E00-u9FA5]/g,''))"
用正则表达式限制只能输入数字和英文:onkeyup="value=value.replace(/[W]/g,'') "onbeforepaste="clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^d]/g,''

正则表达式

正则表达式

正则表达式(I)正则表达式是由英文词语regular expression翻译过来的,就是符合某种规则的表达式。

正则表达式在软件开发中应用非常广泛,例如,找出网页中的超链接,找出网页中的email 地址,找出网页中的手机号码,判断输入的内容是否全部是数字,是否满足某种日期格式等等。

可以将正则表达式理解为一种对文字进行模糊匹配的语言,它用一些特殊的符号(称为元字符)来代表具有某种特征的一组字符以及该组字符重复出现的次数。

例如,对于正则表达式“\d{5}(-\d{4})?”,\d就是一个元字符,它表示一个数字字,{5}表示紧靠它前面的元素项连续重复5次,\d和{5}的组合\d{5}就表示匹配任意连续的5个数字字符;-\d{4}匹配的是一个连字号(-)后加上4个任意的数字,(-\d{4})?表示连字号(-)和后面的4个数字可有可无。

对于整个正则表达式“\d{5}(-\d{4})?”,表示要么是5个连续的数字字符,要么是5个连续的数字后加上一个连字号(-)、再加上4个连续的数字组成的10个字符。

正则表达式中的圆括号除了能将多个元素组合成一个可统一操作的组合项外,它所括起来的表达式部分还成为了一个子匹配(也叫子表达式),也就是说,我们可以用圆括号在一个长的正则表达式中划分出子表达式。

这样,除了可以得到整个正则表达式的匹配结果外,还可以单独得到每个子表达式部分所匹配的结果。

要灵活运用正则表达式,必须了解其中各种元字符的功能。

元字符从功能上大致分为:限定符、选择匹配符、分组组合和反向引用符、特殊字符、字符匹配符、定位符。

限定符用于指定其前面的字符或组合项连续出现多少次,下面是各种限定符及其含义:●{n} 规定前面的元素或组合项的连续出现n 次●{n,} 规定前面的元素或组合项至少连续出现n 次●{n,m } 规定前面的元素或组合项至少连续出现n 次,至多连续出现m 次●+ 规定前面的元素或组合项必须出现一次或连续多次,等效于{1,}●* 规定前面的元素或组合项可以出现零次或连续多次,等效于{0,}●? 规定前面的元素或组合项出现零次或一次,等效于{0,1}默认情况下,正则表达式使用最长(也叫贪婪)匹配原则。

20个常用的正则表达式 单字母

20个常用的正则表达式 单字母

正则表达式(Regular Expression)是一种用于匹配字符串的强大工具。

它通过使用特定的符号和字符来描述和匹配一系列字符串,能够满足我们在处理文本时的各种需求。

在这篇文章中,我们将深入探讨20个常用的单字母正则表达式,并通过实例来展示它们的使用方法。

1. \b在正则表达式中,\b表示单词的边界。

它可以用来匹配单词的开头或结尾,用于查找特定单词而不是单词的一部分。

2. \d\d表示任意一个数字字符。

它可以用来匹配任何数字,例如\d+可以匹配一个或多个数字字符。

3. \w\w表示任意一个字母、数字或下划线字符。

它可以用来匹配单词字符,例如\w+可以匹配一个或多个单词字符。

4. \s\s表示任意一个空白字符,包括空格、制表符、换行符等。

它可以用来匹配空白字符,例如\s+可以匹配一个或多个空白字符。

5. \.\.表示匹配任意一个字符,包括标点符号和空格等。

它可以用来匹配任意字符,例如\.可以匹配任意一个字符。

6. \A\A表示匹配字符串的开始。

它可以用来确保匹配发生在字符串的开头。

7. \Z\Z表示匹配字符串的结束。

它可以用来确保匹配发生在字符串的结尾。

8. \b\b表示单词的边界。

它可以用来匹配单词的开头或结尾,用于查找特定单词而不是单词的一部分。

9. \D\D表示任意一个非数字字符。

它可以用来匹配任何非数字字符。

10. \W\W表示任意一个非单词字符。

它可以用来匹配任何非单词字符。

11. \S\S表示任意一个非空白字符。

它可以用来匹配任何非空白字符。

12. \[\[表示匹配方括号。

它可以用来匹配包含在方括号内的字符。

13. \]\]表示匹配方括号。

它可以用来匹配包含在方括号内的字符。

14. \(\(表示匹配左括号。

它可以用来匹配包含在左括号内的字符。

15. \)\)表示匹配右括号。

它可以用来匹配包含在右括号内的字符。

16. \{\{表示匹配左花括号。

它可以用来匹配包含在左花括号内的字符。

17. \}\}表示匹配右花括号。

正则表达式定义

正则表达式定义

正则表达式定义正则表达式(regular expression_r_r_r)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

列目录时,dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。

正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。

正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

3.1 普通字符由所有那些未显式指定为元字符的打印和非打印字符组成。

这包括所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。

3.2 非打印字符3.3 特殊字符所谓特殊字符,就是一些有特殊含义的字符,如上面说的”*.txt”中的*,简单的说就是表示任何字符串的意思。

如果要查找文件名中有*的文件,则需要对*进行转义,即在其前加一个\。

ls \*.txt。

正则表达式有以下特殊字符。

构造正则表达式的方法和创建数学表达式的方法一样。

也就是用多种元字符与操作符将小的表达式结合在一起来创建更大的表达式。

正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。

3.4 限定符限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。

有*或+或?或{n}或{n,}或{n,m}共6种。

*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。

正则表达式的限定符有:3.5 定位符用来描述字符串或单词的边界,^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B 表示非单词边界。

不能对定位符使用限定符。

3.6 选择用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。

但用圆括号会有一个副作用,是相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。

正则表达式知识详解

正则表达式知识详解

正则表达式知识详解⼀、什么是正则表达式?1.定义:正则表达式(regular expression)描述了⼀种字符串匹配的模式,可以⽤来检查⼀个串是否含有某种⼦串、将匹配的⼦串做替换或者从某个串中取出符合某个条件的⼦串等。

构造正则表达式的⽅法和创建数学表达式的⽅法⼀样。

也就是⽤多种元字符与运算符可以将⼩的表达式结合在⼀起来创建更⼤的表达式。

正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。

2.组成:正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的⽂字模式。

模式描述在搜索⽂本时要匹配的⼀个或多个字符串。

正则表达式作为⼀个模板,将某个字符模式与所搜索的字符串进⾏匹配。

3.何时使⽤:验证——从头到尾完整匹配!查找——只要部分匹配即可!⼆、正则表达式的基本语法和规则1.备选字符集:规定某*⼀位字符*可⽤的备选字符的集合语法:[可选字符列表]强调:1. ⽆论备选字符集包含多少字符,只能选1个2. 必须选1个!⽐如:6位数字的密码[0123456789][0123456789][0123456789][0123456789][0123456789][0123456789]简化:1. 当备选字符连续时,可⽤-表⽰范围的区间⽐如:[0123456789]-->[0-9][0-9][0-9][0-9][0-9][0-9][0-9][a-z]-->1位⼩写字母[A-Z]-->1位⼤写字母[A-Za-z]-->1位字母,⼤⼩写都⾏[0-9a-zA-Z]-->1位字母或数字都⾏反选:[^不能选的字符列表]⽐如:[^47] 强调:^作“除了”使⽤时,只能放在开头2. 预定义字符集:为常⽤的字符集专门提供的简化写法!“\d”-->[0-9]-->1位数字“\w”-->[0-9a-zA-Z_]-->1位字母,数字或_“\s”-->1位空字符:匹配任何空⽩字符,包括空格、制表符、换页符等等。

最全常用正则表达式大全

最全常用正则表达式大全

最全常⽤正则表达式⼤全⼀、校验数字的表达式1. 数字:^[0-9]*$2. n位的数字:^\d{n}$3. ⾄少n位的数字:^\d{n,}$4. m-n位的数字:^\d{m,n}$5. 零和⾮零开头的数字:^(0|[1-9][0-9]*)$6. ⾮零开头的最多带两位⼩数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$7. 带1-2位⼩数的正数或负数:^(\-)?\d+(\.\d{1,2})?$8. 正数、负数、和⼩数:^(\-|\+)?\d+(\.\d+)?$9. 有两位⼩数的正实数:^[0-9]+(.[0-9]{2})?$10. 有1~3位⼩数的正实数:^[0-9]+(.[0-9]{1,3})?$11. ⾮零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$12. ⾮零的负整数:^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$13. ⾮负整数:^\d+$ 或 ^[1-9]\d*|0$14. ⾮正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$15. ⾮负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$16. ⾮正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$17. 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$18. 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$19. 浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$⼆、校验字符的表达式1. 汉字:^[\u4e00-\u9fa5]{0,}$2. 英⽂和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$3. 长度为3-20的所有字符:^.{3,20}$4. 由26个英⽂字母组成的字符串:^[A-Za-z]+$5. 由26个⼤写英⽂字母组成的字符串:^[A-Z]+$6. 由26个⼩写英⽂字母组成的字符串:^[a-z]+$7. 由数字和26个英⽂字母组成的字符串:^[A-Za-z0-9]+$8. 由数字、26个英⽂字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$9. 中⽂、英⽂、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$10. 中⽂、英⽂、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$11. 可以输⼊含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+ 12 禁⽌输⼊含有~的字符:[^~\x22]+三、特殊需求表达式1. Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$2. 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?4. ⼿机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$5. 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$6. 国内电话号码(0511-*******、021-********):\d{3}-\d{8}|\d{4}-\d{7}7. ⾝份证号(15位、18位数字):^\d{15}|\d{18}$8. 短⾝份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$9. 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$10. 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$11. 强密码(必须包含⼤⼩写字母和数字的组合,不能使⽤特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$12. ⽇期格式:^\d{4}-\d{1,2}-\d{1,2}13. ⼀年的12个⽉(01~09和1~12):^(0?[1-9]|1[0-2])$14. ⼀个⽉的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$15. 钱的输⼊格式:16. 1.有四种钱的表⽰形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$17. 2.这表⽰任意⼀个不以0开头的数字,但是,这也意味着⼀个字符"0"不通过,所以我们采⽤下⾯的形式:^(0|[1-9][0-9]*)$18. 3.⼀个0或者⼀个不以0开头的数字.我们还可以允许开头有⼀个负号:^(0|-?[1-9][0-9]*)$19. 4.这表⽰⼀个0或者⼀个可能为负的开头不为0的数字.让⽤户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下⾯我们要加的是说明可能的⼩数部分:^[0-9]+(.[0-9]+)?$20. 5.必须说明的是,⼩数点后⾯⾄少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$21. 6.这样我们规定⼩数点后⾯必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$22. 7.这样就允许⽤户只写⼀位⼩数.下⾯我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$23 8.1到3个数字,后⾯跟着任意个逗号+3个数字,逗号成为可选,⽽不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$24. 备注:这就是最终结果了,别忘了"+"可以⽤"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在⽤函数时去掉去掉那个反斜杠,⼀般的错误都在这⾥25. xml⽂件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$26. 中⽂字符的正则表达式:[\u4e00-\u9fa5]27. 双字节字符:[^\x00-\xff] (包括汉字在内,可以⽤来计算字符串的长度(⼀个双字节字符长度计2,ASCII字符计1))28. 空⽩⾏的正则表达式:\n\s*\r (可以⽤来删除空⽩⾏)29. HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (⽹上流传的版本太糟糕,上⾯这个也仅仅能部分,对于复杂的嵌套标记依旧⽆能为⼒)30. ⾸尾空⽩字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以⽤来删除⾏⾸⾏尾的空⽩字符(包括空格、制表符、换页符等等),⾮常有⽤的表达式)31. 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)32. 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)33. IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有⽤)34. IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))。

常用正则表达式

常用正则表达式

1.平时做网站经常要用正则表达式,下面是一些讲解和例子,仅供大家参考和修改使用:2."^\d+$"d+)$"0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"d+))|(0+(\.0+)))$"0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"d+)$"\w-]+)*@[\ w-]+(\.[\w-]+)+$"\w+(-\w+)*))*(\\S*)$"+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-z A-Z]{2,4}|[0-9]{1,3})(])$" d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|2 5[0-5])$" >.*<\/\1>|<(.*) \/>/3.匹配首尾空格的正则表达式:(^\s*)|(\s*$)4.匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*5.匹配网址URL的正则表达式:^[a-zA-z]+:\\w+(-\\w+)*))*(\\\\S*)$6.匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$7.匹配国内电话号码:(\d{3}-|\d{4}-)(\d{8}|\d{7})8.匹配腾讯QQ号:^[1-9]*[1-9][0-9]*$9.10.11.元字符及其在正则表达式上下文中的行为:12.13.\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。

常用正则表达式

常用正则表达式

常用正则表达式正则表达式是一种用于查找和替换文本字符串的强大工具,它能够有效地检测和处理字符串中的模式。

它们被广泛应用于编程语言、文本编辑器、网页开发器和其他软件工具中,以满足各种应用的需求。

正则表达式的出现使得我们可以快速查找和替换字符串中的特定模式。

它们可以简化搜索、提取、编辑和替换文本的工作,从而大大提高工作效率。

本文将针对正则表达式,深入讨论它的语法、用法和常见问题,并总结一些常用的正则表达式。

一、正则表达式语法正则表达式使用一种特殊的语法结构来表达文本字符串的模式,称为“正则表达式语法”。

语法结构由普通字符和“元字符”两部分组成,其中元字符用于指示文本字符串的模式,普通字符表示要查找的文本字符串。

正则表达式语法是由以下几个原则组成的:(1)普通字符。

普通字符会被原样匹配。

例如,在正则表达式中输入字符“a”将仅匹配文本中的“a”字符;(2)元字符。

元字符用于描述文本字符串的模式。

它们是正则表达式语法中最重要的部分,常用的元字符有“*”、“+”、“?”、“()”等符号;(3)字符组(Character Class)。

字符组用于指定一个字符集合,可以搜索任何在该字符集合中的字符,例如“[0-9]”将搜索任何数字;(4)字符范围(Character Ranges)。

字符范围用于指定一个连续的字符集合,例如“a-z”将搜索所有小写字母;(5)量词(Quantifiers)。

量词用于指定字符出现的次数,例如“*”表示字符可以出现任意次数,“+”表示字符至少要出现一次;(6)分组(Groups)。

分组可以将一个模式的不同部分分开,例如“(abc)”将abc分成三个模式;(7)反义(Anchors)。

反义用于指定非指定字符的模式,例如“^”表示任何非数字的字符;(8)转义(Escapes)。

转义符可以将特殊字符转换为普通字符,例如“”将使“”变为普通字符。

二、正则表达式用法正则表达式可以用于各种文本处理任务,如搜索、提取、编辑和替换等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正则表达式目录1. 引言 2. 基本语法 3. sed 4. awk 5. 练习:在 C 语言中使用正则表达式1. 引言以前我们用 grep 在一个文件中找出包含某些字符串的行,比如在头文件中找出一个宏定义. 其实 grep 还可以找出符合某个模式(Pattern)的一类字符串.例如找出所有符合 xxxxx@xxxx.xxx 模式的字符串(也就是 email 地址),要求 x 字符可以是字母,数字,下划 线,小数点或减号,email 地址的每一部分可以有一个或多个 x 字符,例如 abc.d@, 1_2@987-6.54,当然符合这个模式的不全是合法的 email 地址,但至少可以做一次初步筛选, 筛掉 a.b,c@d 等肯定不是 email 地址的字符串.再比如,找出所有符合 yyy.yyy.yyy.yyy 模 式的字符串(也就是 IP 地址),要求 y 是 0-9 的数字,IP 地址的每一部分可以有 1-3 个 y 字 符. 如果要用 grep 查找一个模式,如何表示这个模式,这一类字符串,而不是一个特定的字符串 呢?从这两个简单的例子可以看出,要表示一个模式至少应该包含以下信息: 字符类(Character Class):如上例的 x 和 y,它们在模式中表示一个字符,但是取 值范围是一类字符中的任意一个. 数量限定符(Quantifier): 邮件地址的每一部分可以有一个或多个 x 字符,IP 地址 的每一部分可以有 1-3 个 y 字符 各种字符类以及普通字符之间的位置关系:例如邮件地址分三部分,用普通字符@和. 隔开,IP 地址分四部分,用.隔开,每一部分都可以用字符类和数量限定符描述.为 了表示位置关系,还有位置限定符(Anchor)的概念,将在下面介绍.规定一些特殊语法表示字符类,数量限定符和位置关系,然后用这些特殊语法和普通字符一 起表示一个模式,这就是正则表达式(Regular Expression).例如 email 地址的正则表达式 可以写成[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+,IP 地址的正则表达式可以 写成[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}.下一节介绍正则表达式的语法, 我们先看看正则表达式在 grep 中怎么用.例如有这样一个文本文件 testfile:192.168.1.1第 1 页 共 10 页1234.234.04.5678 123.4234.045.678 abcde查找其中包含 IP 地址的行:$ egrep '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' testfile 192.168.1.1 1234.234.04.5678egrep 相当于 grep -E,表示采用 Extended 正则表达式语法.grep 的正则表达式有 Basic 和 Extended 两种规范,它们之间的区别下一节再解释.另外还有 fgrep 命令,相当于 grep -F, 表示只搜索固定字符串而不搜索正则表达式模式, 不会按正则表达式的语法解释后面的参数. 注意正则表达式参数用单引号括起来了,因为正则表达式中用到的很多特殊字符在 Shell 中 也有特殊含义(例如\),只有用单引号括起来才能保证这些字符原封不动地传给 grep 命令, 而不会被 Shell 解释掉. 192.168.1.1 符合上述模式,由三个.隔开的四段组成,每段都是 1 到 3 个数字,所以这一行 被找出来了,可为什么 1234.234.04.5678 也被找出来了呢?因为 grep 找的是包含某一模式 的行,这一行包含一个符合模式的字符串 234.234.04.567.相反,123.4234.045.678 这一行 不包含符合模式的字符串,所以不会被找出来. grep 是一种查找过滤工具,正则表达式在 grep 中用来查找符合模式的字符串.其实正则表 达式还有一个重要的应用是验证用户输入是否合法, 例如用户通过网页表单提交自己的 email 地址,就需要用程序验证一下是不是合法的 email 地址,这个工作可以在网页的 Javascript 中做,也可以在网站后台的程序中做,例如 PHP,Perl,Python,Ruby,Java 或 C,所有 这些语言都支持正则表达式,可以说,目前不支持正则表达式的编程语言实在很少见.除了 编程语言之外, 很多 UNIX 命令和工具也都支持正则表达式, 例如 grep, sed, vi, awk, emacs 等等."正则表达式"就像"变量"一样,它是一个广泛的概念,而不是某一种工具或编程 语言的特性.2. 基本语法我们知道 C 的变量和 Shell 脚本变量的定义和使用方法很不相同,表达能力也不相同,C 的 变量有各种类型,而 Shell 脚本变量都是字符串.同样道理,各种工具和编程语言所使用的 正则表达式规范的语法并不相同,表达能力也各不相同,有的正则表达式规范引入很多扩展, 能表达更复杂的模式,但各种正则表达式规范的基本概念都是相通的.本节介绍 egrep(1)所 使用的正则表达式, 它大致上符合 POSIX 正则表达式规范, 详见 regex(7) 看这个 man page (第 2 页 共 10 页对你的英文绝对是很好的锻炼).希望读者仿照上一节的例子,一边学习语法,一边用 egrep 命令做实验. 表 32.1. 字符类 字符 . [] ^ [[:xxx:]] 含义 匹配任意一个字符 匹配括号中的任意一个字符 在[]括号内表示字符范围 举例 abc.可以匹配 abcd,abc9 等 [abc]d 可以匹配 ad,bd 或 cd [0-9a-fA-F]可以匹配一位十六进制数字位于[]括号内的开头,匹配除括号 [^xy]匹配除 xy 之外的任一字符,因此[^xy]1 中的字符之外的任意一个字符 可以匹配 a1,b1 但不匹配 x1,y1 grep 工具预定义的一些命名字符 类 [[:alpha:]]匹配一个字母,[[:digit:]]匹配 一个数字表 32.2. 数量限定符 字符 ? 含义 紧跟在它前面 的单元应匹配 零次或一次 紧跟在它前面 的单元应匹配 一次或多次 紧跟在它前面 的单元应匹配 零次或多次 紧跟在它前面 的单元应精确 匹配 N 次 举例 [0-9]?\.[0-9]匹配 0.0,2.3,.5 等,由于.在正则表达式中是一个特 殊字符,所以需要用\转义一下,取字面值 [a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+匹配 email 地 址 [0-9][0-9]*匹配至少一位数字,等价于[0-9]+, [a-zA-Z_]+[a-zA-Z_0-9]*匹配 C 语言的标识符+*{N}[1-9][0-9]{2}匹配从 100 到 999 的整数紧跟在它前面 {N,} 的单元应匹配 至少 N 次 紧跟在它前面 {,M} 的单元应匹配 最多 M 次[1-9][0-9]{2,}匹配三位以上(含三位)的整数[0-9]{,1}相当于[0-9]?紧跟在它前面 的单元应匹配 {N,M} [0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}匹配 IP 地址 至少 N 次,最多 M次第 3 页 共 10 页再次注意 grep 找的是包含某一模式的行,而不是完全匹配某一模式的行.再举个例子,如果 文本文件的内容是aaabc aad efg查找 a*这个模式的结果是三行都被找出来了$ egrep 'a*' testfile aabc aad efga*匹配 0 个或多个 a,而第三行包含 0 个 a,所以也包含了这一模式.单独用 a*这样的正则 表达式做查找没什么意义,一般是把 a*作为正则表达式的一部分来用. 表 32.3. 位置限定符 字 符 ^ $ \< \> \b \B 含义 匹配行首的位置 匹配行末的位置 匹配单词开头的位置 匹配单词结尾的位置 匹配单词开头或结尾的位置 匹配非单词开头和结尾的位 置 举例 ^Content 匹配位于一行开头的 Content ;$匹配位于一行结尾的;号,^$匹配空行 \<th 匹配... this,但不匹配 ethernet,tenth p\>匹配 leap ...,但不匹配 parent,sleepy \bat\b 匹配... at ...,但不匹配 cat,atexit,batch \Bat\B 匹配 battery,但不匹配... attend,hat ...位置限定符可以帮助 grep 更准确地查找,例如上一节我们用 [0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}查找 IP 地址,找到这两行192.168.1.1第 4 页 共 10 页1234.234.04.5678如果用^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}$查找,就可以把 1234.234.04.5678 这一行过滤掉了. 表 32.4. 其它特殊字符 字 符 \ 含义 举例转义字符,普通字符转义为特殊 普通字符<写成\<表示单词开头的位置, 特殊字符.写成 字符,特殊字符转义为普通字符 \.以及\写成\\就当作普通字符来匹配将正则表达式的一部分括起来组 () 成一个单元,可以对整个单元使 ([0-9]{1,3}\.){3}[0-9]{1,3}匹配 IP 地址 用数量限定符 | 连接两个子表达式,表示或的关 n(o|either)匹配 no 或 neither 系以上介绍的是 grep 正则表达式的 Extended 规范, Basic 规范也有这些语法, 只是字符?+{}|() 应解释为普通字符,要表示上述特殊含义则需要加\转义.如果用 grep 而不是 egrep,并且 不加-E 参数,则应该遵照 Basic 规范来写正则表达式.3. sedsed 意为流编辑器(Stream Editor),在 Shell 脚本和 Makefile 中作为过滤器使用非常普遍, 也就是把前一个程序的输出引入 sed 的输入,经过一系列编辑命令转换为另一种格式输出. sed 和 vi 都源于早期 UNIX 的 ed 工具,所以很多 sed 命令和 vi 的末行命令是相同的. sed 命令行的基本格式为sed option 'script' file1 file2 ... sed option -f scriptfile file1 file2 ...sed 处理的文件既可以由标准输入重定向得到,也可以当命令行参数传入,命令行参数可以 一次传入多个文件,sed 会依次处理.sed 的编辑命令可以直接当命令行参数传入,也可以写 成一个脚本文件然后用-f 参数指定,编辑命令的格式为/pattern/action第 5 页 共 10 页其中 pattern 是正则表达式,action 是编辑操作.sed 程序一行一行读出待处理文件,如果 某一行与 pattern 匹配,则执行相应的 action,如果一条命令没有 pattern 而只有 action, 这个 action 将作用于待处理文件的每一行. 表 32.5. 常用的 sed 命令 /pattern/p /pattern/d /pattern/s/pattern1/pattern2/ /pattern/s/pattern1/pattern2/g 打印匹配 pattern 的行 删除匹配 pattern 的行 查找符合 pattern 的行,将该行第一个匹配 pattern1 的 字符串替换为 pattern2 查找符合 pattern 的行,将该行所有匹配 pattern1 的字 符串替换为 pattern2使用 p 命令需要注意,sed 是把待处理文件的内容连同处理结果一起输出到标准输出的,因 此 p 命令表示除了把文件内容打印出来之外还额外打印一遍匹配 pattern 的行.比如一个文 件 testfile 的内容是123 abc 456打印其中包含 abc 的行$ sed '/abc/p' testfile 123 abc abc 456要想只输出处理结果,应加上-n 选项,这种用法相当于 grep 命令$ sed -n '/abc/p' testfile abc使用 d 命令就不需要-n 参数了,比如删除含有 abc 的行第 6 页 共 10 页$ sed '/abc/d' testfile 123 456注意,sed 命令不会修改原文件,删除命令只表示某些行不打印输出,而不是从原文件中删 去. 使用查找替换命令时,可以把匹配 pattern1 的字符串复制到 pattern2 中,比如:$ sed 's/bc/-&-/' testfile 123 a-bc456pattern2 中的&表示原文件的当前行中与 pattern1 相匹配的字符串,再比如:$ sed 's/\([0-9]\)\([0-9]\)/-\1-~\2~/' testfile -1-~2~3 abc -4-~5~6pattern2 中的\1 表示与 pattern1 的第一个()括号相匹配的内容,\2 表示与 pattern1 的第 二个()括号相匹配的内容.sed 默认使用 Basic 正则表达式规范,如果指定了-r 选项则使用 Extended 规范,那么()括号就不必转义了. 如果 testfile 的内容是<html><head><title>Hello World</title> <body>Welcome to the world of regexp!</body></html>现在要去掉所有的 HTML 标签,使输出结果为Hello World Welcome to the world of regexp!第 7 页 共 10 页怎么做呢?如果用下面的命令$ sed 's/<.*>//g' testfile结果是两个空行,把所有字符都过滤掉了.这是因为,正则表达式中的数量限定符会匹配尽 可能长的字符串,这称为贪心的(Greedy)[39].比如 sed 在处理第一行时,<.*>匹配的并不 是<html>或<head>这样的标签,而是<html><head><title>Hello World</title>这样一整行,因为这一行开头是<,中间是若干个任意字符,末尾是>.那么这条命令怎么改 才对呢?留给读者思考.[39]有些正则表达式规范支持 Non-greedy 的数量限定符,匹配尽可能短的字符串,例如在 Python 中*?和*一样表示 0 个或任意多个,但前者是 Non-greedy 的.4. awksed 以行为单位处理文件, 比 sed 强的地方在于不仅能以行为单位还能以列为单位处理文 awk 件.awk 缺省的行分隔符是换行,缺省的列分隔符是连续的空格和 Tab,但是行分隔符和列 分隔符都可以自定义,比如/etc/passwd 文件的每一行有若干个字段,字段之间以:分隔,就 可以重新定义 awk 的列分隔符为:并以列为单位处理这个文件.awk 实际上是一门很复杂的脚 本语言,还有像 C 语言一样的分支和循环结构,但是基本用法和 sed 类似,awk 命令行的基 本形式为:awk option 'script' file1 file2 ... awk option -f scriptfile file1 file2 ...和 sed 一样,awk 处理的文件既可以由标准输入重定向得到,也可以当命令行参数传入,编 辑命令可以直接当命令行参数传入, 也可以用-f 参数指定一个脚本文件, 编辑命令的格式为:/pattern/{actions} condition{actions}第 8 页 共 10 页和 sed 类似,pattern 是正则表达式,actions 是一系列操作.awk 程序一行一行读出待处理 文件,如果某一行与 pattern 匹配,或者满足 condition 条件,则执行相应的 actions,如 果一条 awk 命令只有 actions 部分,则 actions 作用于待处理文件的每一行.比如文件 testfile 的内容表示某商店的库存量:ProductA 30 ProductB 76 ProductC 55打印每一行的第二列:$ awk '{print $2;}' testfile 30 76 55自动变量$1,$2 分别表示第一列,第二列等,类似于 Shell 脚本的位置参数,而$0 表示整个 当前行.再比如,如果某种产品的库存量低于 75 则在行末标注需要订货:$ awk '$2<75 {printf "%s\t%s\n", $0, "REORDER";} $2>=75 {print $0;}' testfile ProductA 30 ProductB 76 ProductC 55 REORDER REORDER可见 awk 也有和 C 语言非常相似的 printf 函数. 命令的 condition 部分还可以是两个特 awk 殊的 condition-BEGIN 和 END,对于每个待处理文件,BEGIN 后面的 actions 在处理整个文 件之前执行一次,END 后面的 actions 在整个文件处理完之后执行一次. awk 命令可以像 C 语言一样使用变量(但不需要定义变量),比如统计一个文件中的空行数$ awk '/^ *$/ {x=x+1;} END {print x;}' testfile就像 Shell 的环境变量一样,有些 awk 变量是预定义的有特殊含义的: 表 32.6. awk 常用的内建变量第 9 页 共 10 页FILENAME 当前输入文件的文件名,该变量是只读的 NR NF OFS FS ORS RS 当前行的行号,该变量是只读的,R 代表 record 当前行所拥有的列数,该变量是只读的,F 代表 field 输出格式的列分隔符,缺省是空格 输入文件的列分融符,缺省是连续的空格和 Tab 输出格式的行分隔符,缺省是换行符 输入文件的行分隔符,缺省是换行符例如打印系统中的用户帐号列表$ awk 'BEGIN {FS=":"} {print $1;}' /etc/passwdawk 还可以像 C 语言一样使用 if/else,while,for 控制结构,此处从略.5. 练习:在 C 语言中使用正则表达式POSIX 规定了正则表达式的 C 语言库函数,详见 regex(3).我们已经学习了很多 C 语言库 函数的用法,读者应该具备自己看懂 man 手册的能力了.本章介绍了正则表达式在 grep, sed,awk 中的用法,学习要能够举一反三,请读者根据 regex(3)自己总结正则表达式在 C 语言中的用法, 写一些简单的程序, 例如验证用户输入的 IP 地址或 email 地址格式是否正确.第 10 页 共 10 页。

相关文档
最新文档