php实习tips（正则表达式）_php正则表达式 tip-CSDN博客

本文介绍了PHP中正则表达式的使用方法，包括匹配、替换和分割字符串等操作，并提供了多个示例代码，如提取URL的主机名、高亮显示预标签内的关键字等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正则表达式

作用：
1.正则匹配，根据正则匹配相对的内容
2.正则替换，根据正则替换相对的内容
3.正则分割，根据正则分割字符串

**php正则表达式分为两类，一类是Perl兼容的正则表达式，另一个是POSIX扩展正则表达式，推荐使用Perl正则表达式

**正则表达式的定界符

正则表达式需要写在定界符里，原则上任何不是字母数字或者反斜杠的字符都可以作为定界符，推荐/作为定界符

**使用的建议

php自带的字符串处理函数，推荐使用字符串处理函数，使用正则表达式的效率要比使用字符串处理函数效率低得多

**匹配正则表达式的两个函数

preg_match与preg_match_all函数

preg_match（string pattern，//正则表达式

string subject[，//需要检索的对象

array matchs] //储存结果的数组，默认的match[0]包含所有的匹配内容的整个文本，match[1]为与第一个捕获括号中的文本，以此类推。

示例代码

<?php
if(preg_match("/php/i", "PHP is the web scripting language of choice.", $matches)){
    print "A match was found:". $matches[0];
} else {
    print "A match was not found.";
}
?>

取出url的主机名

<?php
// 从 URL 中取得主机名
preg_match("/^(http://)?([^/]+)/i","http://www.jb51.net/index.html", $matches);
$host = $matches[2];
// 从主机名中取得后面两段
preg_match("/[^./]+.[^./]+$/", $host, $matches);
echo "域名为：{$matches[0]}";
?>

将pre标签里面的关键字为红色

<?php
$str = "<pre>学习php是一件快乐的事。</pre><pre>所有的phper需要共同努力！</pre>";
$kw = "php";
preg_match_all('/<pre>([\s\S]*?)<\/pre>/',$str,$mat);
for($i=0;$i<count($mat[0]);$i++){
    $mat[0][$i] = $mat[1][$i];
    $mat[0][$i] = str_replace($kw, '<span style="color:#ff0000">'.$kw.'</span>', $mat[0][$i]);
    $str = str_replace($mat[1][$i], $mat[0][$i], $str);
}
echo $str;
?>

匹配中文
GBK/GB2312编码：[x80-xff]+ 或 [xa1-xff]+
UTF-8编码：[x{4e00}-x{9fa5}]+/u

<?php
$str = "学习php是一件快乐的事。";
preg_match_all("/[x80-xff]+/", $str, $match);
//UTF-8 使用：
//preg_match_all("/[x{4e00}-x{9fa5}]+/u", $str, $match);
print_r($match);
?>

其中，“/php/i”中的i表示不区分大小写的匹配php

preg_match为匹配一次，如果匹配一次成功了以后，将停止匹配，如果找到返回1，没找到则返回0

如果匹配全部的，使用preg_match_all来匹配

preg_match_all（

string partten，//匹配的正则表达式

string subject，//检索的字符串

array matchs[,//储存结果的数组

int flag]//指定matchs的顺序，分为：

PREG_PATTERN_ORDER:默认顺序，matchs【0】里面储存的是全部匹配选项的数组，$match[1]里面的partten第一个子匹配选项的结果，以此类推
PREG_SET_ORDER：顺序为使matchs【0】为第一组匹配项的结果值，以此类推
PREG_OFFSET_ORDER：顺序为对每个匹配结果同时也返回其附属字符串的偏移量

）

常用的正则表达式

匹配中文字符的正则表达式： [u4e00-u9fa5]   
　　评注：匹配中文还真是个头疼的事，有了这个表达式就好办了 
　　匹配双字节字符(包括汉字在内)：[^x00-xff] 
　　评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1） 
　　匹配空白行的正则表达式：ns*r 
　　评注：可以用来删除空白行 
　　匹配HTML标记的正则表达式：<(S*?)[^>]*>.*?|<.*? /> 
　　评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力 
　　匹配首尾空白字符的正则表达式：^s*|s*$ 
　　评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式 
　　匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)* 
　　评注：表单验证时很实用 
　　匹配网址URL的正则表达式：[a-zA-z]+://[^s]* 
　　评注：网上流传的版本功能很有限，上面这个基本可以满足需求 
　　匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 
　　评注：表单验证时很实用 
　　匹配国内电话号码：d{3}-d{8}|d{4}-d{7} 
　　评注：匹配形式如 0511-4405222 或 021-87888822 
　　匹配腾讯QQ号：[1-9][0-9]{4,} 
　　评注：腾讯QQ号从10000开始 
　　匹配中国邮政编码：[1-9]d{5}(?!d) 
　　评注：中国邮政编码为6位数字 
　　匹配身份证：d{15}|d{18} 
　　评注：中国的身份证为15位或18位 
　　匹配ip地址：d+.d+.d+.d+ 
　　评注：提取ip地址时有用 
　　匹配特定数字： 
　　^[1-9]d*$　 　 //匹配正整数 
　　^-[1-9]d*$ 　 //匹配负整数 
　　^-?[1-9]d*$　　 //匹配整数 
　　^[1-9]d*|0$　 //匹配非负整数（正整数 + 0） 
　　^-[1-9]d*|0$　　 //匹配非正整数（负整数 + 0） 
　　^[1-9]d*.d*|0.d*[1-9]d*$　　 //匹配正浮点数 
　　^-([1-9]d*.d*|0.d*[1-9]d*)$　 //匹配负浮点数 
　　^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$　 //匹配浮点数 
　　^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$　　 //匹配非负浮点数（正浮点数 + 0） 
　　^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$　　//匹配非正浮点数（负浮点数 + 0） 
　　评注：处理大量数据时有用，具体应用时注意修正 
　　匹配特定字符串： 
　　^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串 
　　^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串 
　　^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串 
　　^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串 
　　^w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串 
　　在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下: 
　　只能输入数字：“^[0-9]*$” 
　　只能输入n位的数字：“^d{n}$” 
　　只能输入至少n位数字：“^d{n,}$” 
　　只能输入m-n位的数字：“^d{m,n}$” 
　　只能输入零和非零开头的数字：“^(0|[1-9][0-9]*)$” 
　　只能输入有两位小数的正实数：“^[0-9]+(.[0-9]{2})?$” 
　　只能输入有1-3位小数的正实数：“^[0-9]+(.[0-9]{1,3})?$” 
　　只能输入非零的正整数：“^+?[1-9][0-9]*$” 
　　只能输入非零的负整数：“^-[1-9][0-9]*$” 
　　只能输入长度为3的字符：“^.{3}$” 
　　只能输入由26个英文字母组成的字符串：“^[A-Za-z]+$” 
　　只能输入由26个大写英文字母组成的字符串：“^[A-Z]+$” 
　　只能输入由26个小写英文字母组成的字符串：“^[a-z]+$” 
　　只能输入由数字和26个英文字母组成的字符串：“^[A-Za-z0-9]+$” 
　　只能输入由数字、26个英文字母或者下划线组成的字符串：“^w+$” 
　　验证用户密码:“^[a-zA-Z]w{5,17}$”正确格式为：以字母开头，长度在6-18之间， 
　　只能包含字符、数字和下划线。 
　　验证是否含有^%&'',;=?$"等字符：“[^%&'',;=?$x22]+” 
　　只能输入汉字：“^[u4e00-u9fa5],{0,}$” 
　　验证Email地址：“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$” 
　　验证InternetURL：“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$” 
　　验证电话号码：“^((d{3,4})|d{3,4}-)?d{7,8}$” 
　　正确格式为：“XXXX-XXXXXXX”，“XXXX-XXXXXXXX”，“XXX-XXXXXXX”， 
　　“XXX-XXXXXXXX”，“XXXXXXX”，“XXXXXXXX”。 
　　验证身份证号（15位或18位数字）：“^d{15}|d{}18$” 
　　验证一年的12个月：“^(0?[1-9]|1[0-2])$”正确格式为：“01”-“09”和“1”“12” 
　　验证一个月的31天：“^((0?[1-9])|((1|2)[0-9])|30|31)$” 
　　正确格式为：“01”“09”和“1”“31”。 
　　匹配中文字符的正则表达式： [u4e00-u9fa5] 
　　匹配双字节字符(包括汉字在内)：[^x00-xff] 
　　匹配空行的正则表达式：n[s| ]*r 
　　匹配HTML标记的正则表达式：/<(.*)>.*|<(.*) />/ 
　　匹配首尾空格的正则表达式：(^s*)|(s*$) 
　　匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)* 
　　匹配网址URL的正则表达式：http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?