PHP正则表达式常用函数使用小结

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

PHP正则表达式常⽤函数使⽤⼩结
在PHP中有两套正则表达式函数库。

⼀套是由PCRE（Perl Compatible Regular Expression）库提供的。

PCRE库使⽤和Perl 相同的语法规则实现了正则表达式的模式匹配，其使⽤以“preg_”为前缀命名的函数。

另⼀套是由POSIX（Portable Operation System interface）扩展库提供的。

POSIX扩展的正则表达式由POSIX 1003.2定义，⼀般使⽤以“ereg_”为前缀命名的函数。

两套函数库的功能相似，执⾏效率稍有不同。

⼀般⽽⾔，实现相同的功能，使⽤PCRE库的效率略占优势。

下⾯详细介绍其使⽤⽅法。

函数原型：int preg_match (string $pattern, string $content [, array $matches])
preg_match ()函数在$content字符串中搜索与$pattern给出的正则表达式相匹配的内容。

如果提供了$matches，则将匹配结果放⼊其中。

$matches[0]将包含与整个模式匹配的⽂本，$matches[1]将包含第⼀个捕获的与括号中的模式单元所匹配的内容，以此类推。

该函数只作⼀次匹配，最终返回0或1的匹配结果数。

代码6.1给出preg_match()函数的⼀段代码⽰例。

代码6.1 ⽇期时间的匹配
复制代码代码如下:
<?php
//需要匹配的字符串。

date函数返回当前时间
$content = "Current date and time is ".date("Y-m-d h:i a").", we are learning PHP together.";
//使⽤通常的⽅法匹配时间
if (preg_match ("/\d{4}-\d{2}-\d{2} \d{2}:\d{2} [ap]m/", $content, $m))
{
echo "匹配的时间是：" .$m[0]. "\n";
}
//由于时间的模式明显，也可以简单的匹配
if (preg_match ("/([\d-]{10}) ([\d:]{5} [ap]m)/", $content, $m))
{
echo "当前⽇期是：" .$m[1]. "\n";
echo "当前时间是：" .$m[2]. "\n";
}
>
这是⼀个简单动态⽂本串匹配实例。

假设当前系统时间是“2006年8⽉17⽇13点25分”，将输出如下的内容。

匹配的时间是：2006-08-17 01:25 pm
当前⽇期是：2006-08-17
当前时间是：01:25 pm
ereg()是POSIX扩展库中正则表达式的匹配函数。

eregi()是ereg()函数的忽略⼤⼩写的版本。

⼆者与preg_match的功能类似，但函数返回的是⼀个布尔值，表明匹配成功与否。

需要说明的是，POSIX扩展库函数的第⼀个参数接受的是正则表达式字符串，即不需要使⽤分界符。

例如，代码6.2是⼀个关于⽂件名安全检验的⽅法。

代码6.2 ⽂件名的安全检验
复制代码代码如下:
<?php
$username = $_SERVER['REMOTE_USER'];
$filename = $_GET['file'];
//对⽂件名进⾏过滤，以保证系统安全
if (!ereg('^[^./][^/]*$', $userfile))
{
die('这不是⼀个⾮法的⽂件名！');
}
//对⽤户名进⾏过滤
if (!ereg('^[^./][^/]*$', $username))
{
die('这不是⼀个⽆效的⽤户名');
}
//通过安全过滤，拼合⽂件路径
$thefile = "/home/$username/$filename";
>
通常情况下，使⽤与Perl兼容的正则表达式匹配函数perg_match()，将⽐使⽤ereg()或eregi()的速度更快。

如果只是查找⼀个
字符串中是否包含某个⼦字符串，建议使⽤strstr()或strpos()函数。

函数原型：array preg_grep (string $pattern, array $input)
preg_grep()函数返回⼀个数组，其中包括了$input数组中与给定的$pattern模式相匹配的单元。

对于输⼊数组$input中的每个元素，preg_grep()也只进⾏⼀次匹配。

代码6.3给出的⽰例简单地说明了preg_grep()函数的使⽤。

代码6.3 数组查询匹配
复制代码代码如下:
<?php
$subjects = array(
"Mechanical Engineering", "Medicine",
"Social Science", "Agriculture",
"Commercial Science", "Politics"
);
//匹配所有仅由有⼀个单词组成的科⽬名
$alonewords = preg_grep("/^[a-z]*$/i", $subjects);
>
6.3.2 进⾏全局正则表达式匹配
与preg_match()函数类似。

如果使⽤了第三个参数，将把所有可能的匹配结果放⼊。

本函数返回整个模式匹配的次数（可能为0），如果出错返回False。

下⾯是⼀个将⽂本中的URL链接地址转换为HTML代码的⽰例。

代码6.4是 preg_match_all()函数的使⽤范例。

代码6.4 将⽂本中的链接地址转成HTML
复制代码代码如下:
<?php
//功能：将⽂本中的链接地址转成HTML
//输⼊：字符串
//输出：字符串
function url2html($text)
{
//匹配⼀个URL，直到出现空⽩为⽌
preg_match_all("/http:\/\/?[^\s]+/i", $text, $links);
//设置页⾯显⽰URL地址的长度
$max_size = 40;
foreach($links[0] as $link_url)
{
//计算URL的长度。

如果超过$max_size的设置，则缩短。

$len = strlen($link_url);
if($len > $max_size)
{
$link_text = substr($link_url, 0, $max_size)."...";
} else {
$link_text = $link_url;
}
//⽣成HTML⽂字
$text = str_replace($link_url,"<a href='$link_url'>$link_text</a>",$text);
}
return $text;
}
//运⾏实例
$str = “这是⼀个包含多个URL链接地址的多⾏⽂字。

欢迎访问https://”;
print url2html($str);
/*输出结果
这是⼀个包含多个URL链接地址的多⾏⽂字。

欢迎访问<a href='https://'>
https://</a>
*/
>
2．多⾏匹配
仅仅使⽤POSIX下的正则表式函数，很难进⾏复杂的匹配操作。

例如，对整个⽂件（尤其是多⾏⽂本）进⾏匹配查找。

使⽤
ereg()对此进⾏操作的⼀个⽅法是分⾏处理。

代码6.5的⽰例演⽰了ereg()如何将INI⽂件的参数赋值到数组之中。

代码6.5 ⽂件内容的多⾏匹配
复制代码代码如下:
<?php
$rows = file('php.ini'); //将php.ini⽂件读到数组中
//循环遍历
foreach($rows as $line)
{
If(trim($line))
{
//将匹配成功的参数写⼊数组中
if(eregi("^([a-z0-9_.]*) *=(.*)", $line, $matches))
{
$options[$matches[1]] = trim($matches[2]);
}
unset($matches);
}
}
//输出参数结果
print_r($options);
>
提⽰
这⾥只是为了⽅便说明问题。

解析⼀个*.ini⽂件，最佳⽅法是使⽤函数parse_ini_file()。

该函数直接将*.ini⽂件解析到⼀个⼤数组中。

6.3.3 正则表达式的替换
函数原型：string ereg_replace (string $pattern, string $replacement, string $string)
string eregi_replace (string $pattern, string $replacement, string $string)
ereg_replace()在$string中搜索模式字符串$pattern，并将所匹配结果替换为$replacement。

当$pattern中包含模式单元（或⼦模式）时，$replacement中形如“\1”或“$1”的位置将依次被这些⼦模式所匹配的内容替换。

⽽“\0”或“$0”是指整个的匹配字符串的内容。

需要注意的是，在双引号中反斜线作为转义符使⽤，所以必须使⽤“\\0”，“ \\1”的形式。

eregi_replace()和ereg_replace()的功能⼀致，只是前者忽略⼤⼩写。

代码6.6是本函数的应⽤实例，这段代码演⽰了如何对程序源代码做简单的清理⼯作。

代码6.6 源代码的清理
复制代码代码如下:
<?php
$lines = file('source.php'); //将⽂件读⼊数组中
for($i=0; $i<count($lines); $i++)
{
//将⾏末以“\\”或“#”开头的注释去掉
$lines[$i] = eregi_replace("(\/\/|#).*$", "", $lines[$i]);
//将⾏末的空⽩消除
$lines[$i] = eregi_replace("[ \n\r\t\v\f]*$", "\r\n", $lines[$i]);
}
//整理后输出到页⾯
echo htmlspecialchars(join("",$lines));
>
函数原型：mixed preg_replace (mixed $pattern, mixed $replacement, mixed $subject [, int $limit])
preg_replace较ereg_replace的功能更加强⼤。

其前三个参数均可以使⽤数组；第四个参数$limit可以设置替换的次数，默认为全部替换。

代码6.7是⼀个数组替换的应⽤实例。

代码6.7 数组替换
复制代码代码如下:
<?php
//字符串
$string = "Name: {Name}<br>\nEmail: {Email}<br>\nAddress: {Address}<br>\n";
//模式
$patterns =array(
"/{Address}/",
"/{Name}/",
"/{Email}/"
);
//替换字串
$replacements = array (
"No.5, Wilson St., New York, U.S.A",
"Thomas Ching",
"tom@",
);
//输出模式替换结果
print preg_replace($patterns, $replacements, $string);
>
输出结果如下。

Name: Thomas Ching",
Email: tom@
Address: No.5, Wilson St., New York, U.S.A
在preg_replace的正则表达式中可以使⽤模式修正符“e”。

其作⽤是将匹配结果⽤作表达式，并且可以进⾏重新运算。

例如：复制代码代码如下:
<?php
$html_body = “<HTML><Body><H1>TEST</H1>My Picture<Img src=”my.gif”></Body></HTML>”;
//输出结果中HTML标签将全部为⼩写字母
echo preg_replace (
"/(<\/?)(\w+)([^>]*>)/e",
"'\\1'.strtolower('\\2').'\\3'", //此处的模式变量\\2将被strtolower转换为⼩写字符
$html_body);
>
提⽰
preg_replace函数使⽤了Perl兼容正则表达式语法，通常是⽐ereg_replace更快的替代⽅案。

如果仅对字符串做简单的替换，可以使⽤str_replace函数。

6.3.4 正则表达式的拆分
函数原型：array split (string $pattern, string $string [, int $limit])
本函数返回⼀个字符串数组，每个单元为$string经正则表达式$pattern作为边界分割出的⼦串。

如果设定了$limit，则返回的数组最多包含$limit个单元。

⽽其中最后⼀个单元包含了$string中剩余的所有部分。

spliti是split的忽略⼤⼩版本。

代码6.8是⼀个经常⽤到关于⽇期的⽰例。

代码6.8 ⽇期的拆分
复制代码代码如下:
<?php
$date = "08/30/2006";
//分隔符可以是斜线，点，或横线
list($month, $day, $year) = split ('[/.-]', $date);
//输出为另⼀种时间格式
echo "Month: $month; Day: $day; Year: $year<br />\n";
>
2．preg_split()
本函数与split函数功能⼀致。

代码6.9是⼀个查找⽂章中单词数量的⽰例。

代码6.9 查找⽂章中单词数量
复制代码代码如下:
<?php
$seek = array();
$text = "I have a dream that one day I can make it. So just do it, nothing is impossible!";
//将字符串按空⽩，标点符号拆分（每个标点后也可能跟有空格）
$words = preg_split("/[.,;!\s']\s*/", $text);
foreach($words as $val)
{
$seek[strtolower($val)] ++;
}
echo "共有⼤约" .count($words). "个单词。

";
echo "其中共有" .$seek['i']. "个单词“I”。

";
>
提⽰
preg_split() 函数使⽤了Perl兼容正则表达式语法，通常是⽐split()更快的替代⽅案。

使⽤正则表达式的⽅法分割字符串，可以使⽤更⼴泛的分隔字符。

例如，上⾯对⽇期格式和单词处理的分析。

如果仅⽤某个特定的字符进⾏分割，建议使⽤explode()函数，它不调⽤正则表达式引擎，因此速度是最快的。