perl语言正则表达式简介

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

perl语言正则表达式简介
正则表达式(Regular Expression)是指定模式的一种方法，这种模式对文本进行筛选，只匹配特定的字符串。

一旦匹配到了一个字符串，就可以从大量的文本中将其抽取出来，或者利用另一个字符串来替代这个字符串。

其使用的格式为/pattern/，使用的匹配操作符为：=~(匹配),!~（不匹配）。

Perl语言中因为有这个功能,所以对于字符串的处理能力是非常强有力的。

一：常用正则表达式简介：
1．匹配模式和匹配操作符：
正如上面所说，匹配模式为/patter/,匹配操作符：=~(匹配),!~（不匹配）。

例如: if($line =~/^round-trip/)
{……}
2. 模式中的特殊字符：＋，* ，？, [],[^]， {m}等字符的含义如下：
/pattern/含义：
x?找寻0个或是1个x字符
x*找寻0个或是0个以上的x字符
x+找寻0个或是1个以上的x字符
{m}找寻刚好是m个个数指定的字符
{m,n}找寻在m个数个数以上,n个个数以下指定的字符
[]找寻符合[]内的字符
[^]找寻不符合[]内的字符
[0-9]找寻符合0到9的任何一个字符
[a-z]找寻符合a到z的任何一个字符
[^0-9]找寻不符合0到9的任何一个字符
[^a-z]找寻不符合a到z的任何一个字符
^x找寻字符x开头的字符
$x找寻字符x结尾的字符
a|b|c找到符合a字符或是b字符或是c字符的字符串
abc找到一个含有abc的字符串
\d找寻一个digit(数字)的字符,和[0-9]语法一样
\D找寻一个non-digit(非数字)的字符,和[^0-9]〕语法一样
\w 找寻一个英文字母或是数字的字符,和[a-zA-Z0-9]语法一样
\W找寻一个非英文字母,数字的字符,和[^a-zA-Z0-9]语法一样
\s找寻一个空白的字符
\S 找寻一个非空白的字符
特别的是字符"."，它可以匹配除换行外的所有字符，通常与*合用。

“.*”表示除换行外得任意个任意字符
下面是一些正则表达式在实际中用到或常用的范例:
范例：说明：
/pe*rl/找到p后面跟着0个或多个e,再跟着rl的字符串,如同/cg{0,1}i/
/pe+rl/找到p后面跟着一个以上e,再跟着rl的字符串,如同/cg{1,}i/
/pe?rl/找到p后面跟着0个或是一个e,再跟着rl的字符串,如同/cg{0,1}i/
/p.rl/找到p后面跟着一个任意字符,再跟着rl的字符串
/p.*rl/找到p后面跟着任意个任意字符,再跟着rl的字符串
/p|r|l/找到含有p或r或l的字符串
/pe{2,4}rl/找到p后面跟着2个到4个e,再跟着rl的字符串
/[perl]/ 找到符合有这四个字符任意一个的字符串
/[^perl]/找到没有这四个字符中任意一个的字符串
/round-trip/找到含有round-trip的字符串
/^round-trip/找到开头是round-trip的字符串
/round-trip$/找到结尾是round-trip的字符串
/^\*/ 找到以*开头的字符串
/ up| down/ 找到以空格up或空格down开头的字符串
/CPU utilization for five seconds.*/ 找到含有" CPU utilization for five seconds加除
换行符外的任意字符"的字符串
/round-trip min\/avg\/max/找到含有“round-trip min/avg/max”的字符串
/^---.*---/ 找到符合含有在以“---”开头，且在“---"间"---"有除换行符
外任何字符的字符串
/\d% packet loss/找寻符合含有"数字％ packet loss"的字符串
/^ +\d+/ 找到以一个或多个空格开头并且后接一个或多个数字的字符串/^pamvr.*/ 找到以pamvr开头且后接除换行符外任意字符的字符串
/up.*up/ 找到含有两个up且在它们间有除换行符外任意字符的字符串/^-rw-rw-r--/ 找到以'-rw-rw-r--'开头的字符串
/\d$/ 找到以数字结尾的字符串
/up$/i 找到以up结尾，并且忽略up大小写的字符串
/\d/找寻符合数字的字符串,可以使用/\d+/来表示一个或是多个数值的字符串
/\D/找寻符合不是数字的字符串
/\w/找寻符合英文字母,数字的字符串
/\W/找寻符合非英文字母,数字字符的字符
if ($line =~ /\d+(\\.\\d+)?$/) 匹配非负浮点数
例1：检验变量名的类型：
if ($varname =~ /^\$[A-Za-z][_0-9a-zA-Z]*$/) { #以字符'$'开头的变量 print ("$varname is a legal scalar variable\n");#则为简单变量 } elsif ($varname =~ /^@[A-Za-z][_0-9a-zA-Z]*$/) { #以字符'@'开头的变量 print ("$varname is a legal array variable\n");#则为数组类型变量 } elsif ($varname =~ /^%[A-Za-z][_0-9a-zA-Z]*$/) { #以字符'%'开头的变量
print ("$varname is a legal hash variable\n");#则为哈西表类型变量 } else {
print ("I don't understand what $varname is.\n");#
}
3. 转义字符：如果你想在模式中包含通常被看作特殊意义的字符，须在其前加斜线"\"。

如：/\*+/中\*即表示字符*，而不是上面提到的一个或多个字符的含义。

4. 模式匹配选项:
a、匹配所有可能的模式(g选项),不加g只匹配一处。

@matches = "balata" =~ /.a/g; # now @matches = ("ba", "la", "ta")
b、忽略大小写(i选项)例
/de/i匹配de,dE,De和DE。

c、将字符串看作多行(m选项)
在此情况下，^符号匹配字符串的起始或新的一行的起始；$符号匹配任意行的末尾。

d、将字符串看作单行例
如/a.*bc/s匹配字符串axxxxx\n xxxxbc，但/a.*bc/则不匹配该字符串。

e、在模式中忽略空格
/\d{2} ([\W]) \d{2} \1 \d{2}/x等价于/\d{2}([\W])\d{2}\1\d{2}/。

5、替换操作符:
语法为s/pattern/replacement/，其效果为将字符串中与pattern匹配的部分换成replacement。

如：
$string = "abc123def";
$string =~ s/123/456/; # now $string = "abc456def";
但在替换部分不支持模式的特殊字符，如{},*,+等，如s/abc/[def]/将把abc替换为[def]。

6、翻译操作符:
7、这是另一种替换方式，语法如：tr/string1/string2/。

同样，string2为替换部分，但其效
果是把string1中的第一个字符替换为string2中的第一个字符，把string1中的第二个字符替换为string2中的第二个字符，依此类推。

如：
8、 $string = "abcdefghicba";
9、 $string =~ tr/abc/def/; # now string = "defdefghifed"
10、当string1比string2长时，其多余字符替换为string2的最后一个字符；当string1
中同一个字符出现多次时，将使用第一个替换字符。

二：其它正则表达式功能简介：
这里要介绍的是其它一些较少用到的正则表达式功能,作为上面功能的补充。

1、模式的部分重用
当模式中匹配相同的部分出现多次时，可用括号括起来，用\n(\1,\2…)来多次引用，以简化表达式：
例如：/\d{2}([\W])\d{2}\1\d{2}/ 匹配：
12-05-92
26.11.87
07 04 92等但不匹配12-05.92
注意：/\d{2}([\W])\d{2}\1\d{2}/ 不同于/(\d{2})([\W])\1\2\1/ ，后者只匹配形如
17-17-17的字符串，而不匹配17-05-91等。

2、指定模式定界符
缺省的，模式定界符为反斜线/，但其可用字母m自行指定，如：
m!/u/jqpublic/perl/prog1! 等价于/\/u\/jqpublic\/perl\/prog1/ 注：当用字母'作为定界符时，不做变量替换；当用特殊字符作为定界符时，其转义功能或特殊功能即不能使用。

成对的符号必须成对地使用。

3、模式次序变量
在模式匹配后调用重用部分的结果可用变量$n，全部的结果用变量$&。

匹配处之前的部分用变量$`，匹配处之前的部分用变量$'。

也可用列表一次取得。

$string = "This string contains the number 25.11.";
$string =~ /-?(\d+)\.?(\d+)/; # 匹配结果为25.11
$integerpart = $1; # now $integerpart = 25
$decimalpart = $2; # now $decimalpart = 11
$totalpart = $&; # now totalpart = 25.11
4．扩展模式匹配
PERL支持PERL4和标准UNIX模式匹配操作所没有的一些模式匹配能力。

其语法为：
(?<c>pattern)，其中c是一个字符，pattern是起作用的模式或子模式。

a、不存贮括号内的匹配内容
在PERL的模式中，括号内的子模式将存贮在内存中，此功能即取消存贮该括号内的匹配内容，如/(?:a|b|c)(d|e)f\1/中的\1表示已匹配的d或e，而不是a或b或c。

b、内嵌模式选项
通常模式选项置于其后，有四个选项：i、m、s、x可以内嵌使用，语法为：/(?option)pattern/，等价于/pattern/option。

c、肯定的和否定的预见匹配
肯定的预见匹配语法为/pattern(?=string)/，其意义为匹配后面为string的模式，相反的，(?!string)意义为匹配后面非string的模式，如：
$string = "25abc8";
$string =~ /abc(?=[0-9])/;
$matched = $&; # $&为已匹配的模式，此处为abc，而不是abc8
d、模式注释
PERL5中可以在模式中用?#来加注释，如：
if ($string =~ /(?i)[a-z]{2,3}(?# match two or three alphabetic characters)/ { ...
}
三：脚本中一些常用函数介绍：
在对原始结果分析中我们经常需要用到一些对字符串进行处理的函数如split,index等，下
面是对它们的一些简单介绍和实际中的应用举例：
函数名称：index
调用语法：position = index (string, substring, position);
解说：返回子串substring在字符串string中的位置，如果不存在则返回-1。

参数position 是可选项，表示匹配之前跳过的字符数，或者说从该位置开始匹配。

举例：my $lPosition=index($line,'/')；#第一个字符“/”在字符串$line中的位置，参数position忽略
函数名称：rindex
调用语法：position = rindex (string, substring, position);
解说：与index类似，区别是从右端匹配。

举例：my $rPosition=rindex(substr($line,0,$rPosition-1),'/')；#右边第一个字符“/”在字符串$line中的位置，参数position忽略
函数名称：substr
调用语法：substr (expr, skipchars, length)
解说：抽取字符串expr中的子串，跳过skipchars个字符，或者说从位置skipchars开始抽取子串（第一个字符位置为0），子串长度为length，此参数可忽略，意味着取剩下的全部
字符。

举例：my $procCpu=substr($line,$lPosition+1,$rPosition-$lPosition-1)；
函数名称：length
调用语法：num = length (string);
解说：返回字符串长度，或者说含有字符的数目。

举例：my $num = length($oldSubStr)
函数名称：split
调用语法：@list = split (pattern, string, maxlength);
解说：将字符串分割成一组元素的列表。

每匹配一次pattern，就开始一个新元素，但pattern 本身不包含在元素中。

maxlength是可选项，当指定它时，达到该长度就不再分割。

举例：@list=split(/ +/,$line): 将字符串$line以一个或多个空格为分隔符，分割成一个数组@list
函数名称：join
调用语法：join(joinstr,list);
解说：把字符串列表(数组)组合成一个长的字符串，在每两个列表元素间插入串joinstr。

举例：$string = join("\n",@resultString):将数组@resultString以换行符为标志合并成一个字符串$string
函数名称：push
调用语法：push(@arrayvar,elements);
解说：在数组末尾增加一个或多个元素
举例：push(@outputArgv,"丢包率=int,%,丢包率\n");
函数名称：grep
@list = grep(pattern,@searchlist);
调用语法：
解说：在数组@searchlist中抽取与指定模式匹配的元素，参数pattern为欲查找的模式，返回值是匹配元素的列表（数组）
举例：my @temp=grep(/^\d/,@transferResult);。