PHP正则表达式规则及常用方法整理

PHP常用正则表达式

"^\d+$"　　//非负整数（正整数+ 0）
"^[0-9]*[1-9][0-9]*$"　　//正整数
"^((-\d+)|(0+))$"　　//非正整数（负整数+ 0）
"^-[0-9]*[1-9][0-9]*$"　　//负整数
"^-?\d+$"　　　　//整数
"^\d+(\.\d+)?$"　　//非负浮点数（正浮点数+ 0）
"^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"　　//正浮点数
"^((-\d+(\.\d+)?)|(0+(\.0+)?))$"　　//非正浮点数（负浮点数+ 0）
"^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"　　//负浮点数
"^(-?\d+)(\.\d+)?$"　　//浮点数
"^[A-Za-z]+$"　　//由26个英文字母组成的字符串
"^[A-Z]+$"　　//由26个英文字母的大写组成的字符串
"^[a-z]+$"　　//由26个英文字母的小写组成的字符串
"^[A-Za-z0-9]+$"　　//由数字和26个英文字母组成的字符串
"^\w+$"　　//由数字、26个英文字母或者下划线组成的字符串
"^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"　　　　//email地址
"^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"　　//url
/^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/   //  年-月-日
/^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/   //月/日/年
"^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$"   //Emil
/^((\+?[0-9]{2,4}\-[0-9]{3,4}\-)|([0-9]{3,4}\-))?([0-9]{7,8})(\-[0-9]+)?$/     //电话号码
"^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$"   //IP地址

匹配中文字符的正则表达式：[u4e00-u9fa5]

匹配双字节字符(包括汉字在内)：[^\x00-\xff]

匹配空行的正则表达式：n[s| ]*r
匹配HTML标记的正则表达式：/<(.)>.< /1>|<(.*) />/
匹配首尾空格的正则表达式：(^s)|(s$)
匹配Email地址的正则表达式：w+([-+.]w+)@w+([-.]w+).w+([-.]w+)*
匹配网址URL的正则表达式：^[a-zA- z]+://(\w+(-\w+))(\.(\w+(-\w+)))(\?\S)?$
匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^a-zA-Z{4,15}$
匹配国内电话号码：(d{3}-| d{4}-)?(d{8}|d{7})?
匹配腾讯QQ号：^[1-9]1-9$

元字符及其在正则表达式上下文中的行为：
将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。
^匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配’n’或’r’之后的位置。
$匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配’n’或’r’之前的位置。
*匹配前面的子表达式零次或多次。
+匹配前面的子表达式一次或多次。+等价于{1,}。
?匹配前面的子表达式零次或一次。?等价于{0,1}。
{n} n是一个非负整数，匹配确定的n次。
{n,} n是一个非负整数，至少匹配n次。
{n,m} m和n均为非负整数，其中n <= m。最少匹配n次且最多匹配m次。在逗号和两个数之间不能有空格。
?当该字符紧跟在任何一个其他限制符(*, +, ?, {n}, {n,}, {n,m})后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹

配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。
.匹配除"n"之外的任何单个字符。要匹配包括’n’在内的任何字符，请使用象’[.n]’的模式。
(pattern)匹配pattern并获取这一匹配。
(?:pattern)匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。
(?=pattern)正向预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要

获取供以后使用。
(?!pattern)负向预查，与(?=pattern)作用相反
x|y匹配x或y。
[xyz]字符集合。

[^xyz]负值字符集合。

[a-z]字符范围，匹配指定范围内的任意字符。

[^a-z]负值字符范围，匹配任何不在指定范围内的任意字符。

b匹配一个单词边界，也就是指单词和空格间的位置。
B匹配非单词边界。
cx匹配由x指明的控制字符。
d匹配一个数字字符。等价于[0-9]。

\D匹配一个非数字字符。等价于[^0-9]。

f匹配一个换页符。等价于x0c和cL。
n匹配一个换行符。等价于x0a和cJ。
r匹配一个回车符。等价于x0d和cM。
s匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ fnrtv]。

\S匹配任何非空白字符。等价于[^ \f\n\r\t\v]。

t匹配一个制表符。等价于x09和cI。
v匹配一个垂直制表符。等价于x0b和cK。
w匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。

\W匹配任何非单词字符。等价于’[^A-Za-z0-9_]’。

xn匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。
num匹配num，其中num是一个正整数。对所获取的匹配的引用。

n标识一个八进制转义值或一个后向引用。如果n之前至少n个获取的子表达式，则n为后向引用。否则，如果n为八进制数字(0-7)，则n为一个八进制转义值。

nm标识一个八进制转义值或一个后向引用。如果nm之前至少有is preceded by at least nm个获取得子表达式，则nm为后向引用。如果nm之前至少有n个获取，则n为一个后跟文字m的后向引用。如果前面的条件都不满足，若n和m均为八进制数字(0-7)，则nm将匹配八进制转义值nm。

nml如果n为八进制数字(0-3)，且m和l均为八进制数字(0-7)，则匹配八进制转义值nml。

un匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。
匹配中文字符的正则表达式：[u4e00-u9fa5]

匹配双字节字符(包括汉字在内)：[^x00-xff]

匹配空行的正则表达式：n[s| ]*r
匹配HTML标记的正则表达式：/<(.)>.</1>|<(.*) />/
匹配首尾空格的正则表达式：(^s)| (s$)
匹配Email地址的正则表达式：w+([-+.]w+)@w+([-.]w+).w+([-.]w+)*

匹配网址URL的正则表达式：http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?

利用正则表达式限制网页表单里的文本框输入内容：

用正则表达式限制只能输入中文：

onkeyup="value=value.replace(/[^u4E00-u9FA5]/g,'')" 

onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^u4E00-u9FA5]/g,''))"

用正则表达式限制只能输入全角字符：

onkeyup="value=value.replace(/[^uFF00-uFFFF]/g,'')" 

onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^uFF00-uFFFF]/g,''))"

用正则表达式限制只能输入数字：

('text',clipboardData.getData('text').replace(/[^d]/g,''))"

用正则表达式限制只能输入数字和英文：

onkeyup="value=value.replace(/[W]/g,'') 

"onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^d]/g,''))"

常用正则式
匹配中文字符的正则表达式：[u4e00-u9fa5]

匹配双字节字符(包括汉字在内)：[^\x00-\xff]

匹配空行的正则表达式：n[s| ]*r
匹配HTML标记的正则表达式：/<(.)>.</1>|<(.*) />/
匹配首尾空格的正则表达式：(^s)|(s$)
匹配IP地址的正则表达式：/(d+).(d+).(d+).(d+)/g //
匹配Email地址的正则表达式：w+([-+.]w+)@w+([-.]w+).w+([-.]w+)*

匹配网址URL的正则表达式：http://(/[\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?

sql语句：^(select|drop|delete|create|update|insert).*$
1、非负整数：^d+$
2、正整数：^[0-9]1-9$
3、非正整数：^((-d+)|(0+))$
4、负整数：^-[0-9]1-9$
5、整数：^-?d+$
6、非负浮点数：^d+(. d+)?$
7、正浮点数：^((0-9)+.[0-9]1-9)|([0-9]1-9. [0-9]+)|([0-9]1-9))$
8、非正浮点数：^((-d+.d+)?)|(0+ (.0+)?))$
9、负浮点数：^(-((正浮点数正则式)))$
10、英文字符串：^[A-Za-z]+$
11、英文大写串：^[A-Z]+$
12、英文小写串：^[a-z]+$
13、英文字符数字串：^[A-Za- z0-9]+$
14、英数字加下划线串：^w+$
15、E-mail地址：^[w-]+(. [w-]+)*@[w-]+(.[w-]+)+$
16、URL：^[a-zA-Z]+://(w+(-w+))(. (w+(-w+)))(?s)?$
或：

^http:\/\/[A-Za-z0-9]+\.[A-Za-z0-9]+[\/= \?%\-&_~`@[\]\':+!]*([^<>\"\"])*$

17、邮政编码：^[1-9]d{5}$
18、中文：^[u0391-uFFE5]+$
19、电话号码：^((d2,3)|(d{3}-))?(0d2,3|0d{2,3}-)?[1-9]d{6,7}(-d{1,4})?$
20、手机号码：^(( (d{2,3}))|(d{3}-))?13d{9}$
21、双字节字符(包括汉字在内)：^x00-xff
22、匹配首尾空格：(^s)|(s$)（像vbscript那样的trim函数）
23、匹配HTML标记：< (.)>.</1>|<(.*) />
24、匹配空行：n[s| ]*r
25、提取信息中的网络链接：(h|H)(r|R)(e|E)(f|F) = ('|")?(w|\|/|.)+('|"| *|>)?
26、提取信息中的邮件地址：w+([-+.]w+)@w+([-.]w+).w+([-.]w+)*
27、提取信息中的图片链接：(s|S)(r|R)(c|C) = ('|")?(w|\|/|.)+('|"| *|>)?
28、提取信息中的IP地址：(d+).(d+).(d+).(d+)
29、提取信息中的中国手机号码：(86)013d{9}
30、提取信息中的中国固定电话号码：(d3,4|d{3,4}-|s)?d{8}
31、提取信息中的中国电话号码（包括移动和固定电话）：(d3,4|d{3,4}-|s)?d{7,14}
32、提取信息中的中国邮政编码：[1-9] {1}(d+){5}
33、提取信息中的浮点数（即小数）：(-?d*).?d+
34、提取信息中的任何数字：(-?d*)(.d+)?
35、IP：(d+).(d+).(d+).(d+)
36、电话区号：/^0d{2,3}$/
37、腾讯QQ号：^[1-9]1-9$
38、帐号(字母开头，允许5-16字节，允许字母数字下划线)：^a-zA-Z{4,15}$
39、中文、英文、数字及下划线：^[u4e00-u9fa5_a-zA-Z0-9]+$

40、汉字、英文、数字、下划线、短连接 - 在UTF8和GB2312下的不同提取方式(例子如下)：

function getChinaEnglishNumStrlen($str,$charset='utf8'){

if($charset=='gb2312'){
if(!preg_match_all("/^[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_\-]+/",$str,$match)){
return false;
}
return implode('',$match[0]);
}
//
if($charset=='utf8'){
if(!preg_match_all("/[\x{4e00}-\x{9fa5}A-Za-z0-9_\-]+/u",$str,$match)){
return false;
}
return implode('',$match[0]);
}
return false;

}

以上函数返回提取出来的汉字字母数字_-符号字符串组合

41、过滤掉特殊字符，只保留字符串中文、英文字母、数字、下划线、中划线
注意：下面的方法，只保留字符串中文、英文字母、数字、下划线、中划线，其他符号都被过滤掉，如果字符串为utf-8，则下面的就不需要转码，可以注释掉里边的mb_convert_encoding方法。

    /**
     * 过滤特殊字符（只保留中文、英文字母、数字、下划线、中划线）
     * @desc  本方法主要用来过滤一些灌水发广告里边含有特殊符存在的敏感词的内容
     * @param  string  $str 待处理的字符（gbk码）
     * @return string
     */
    function filter_special_characters($str)
    {
       if(empty($str))  return "";

       //　将gbk转为utf-8码
       $str = mb_convert_encoding($str, "utf-8", "gbk");
       
       // 过滤后的字符串
       $new_str = "";

       // 正则匹配
       if(preg_match_all("/[\x{4e00}-\x{9fa5}A-Za-z0-9_\-]+/u", $str , $match))
       {
         if($match[0])
         {
           foreach($match[0] as $val)
          {
            $new_str  .= $val;
          }

          // 转码为gbk输出
          $new_str = mb_convert_encoding($new_str , "gbk", "utf-8");
      
        }
       
       }

       return $new_str;

    }

  // 调用方法测试过滤垃圾广告中的特殊符
  $str = "红尘一场梦  啦啦+Q【1⒐6⒉4⒊⒐】★信誉第一";
  $new_str = filter_special_characters($str);
  print_r($new_str);

  // 打印输出
  // 红尘一场梦啦啦Q164信誉第一

42、preg_match结合正则使用
preg_match() 匹配成功一次后就会停止匹配，如果要实现全部结果的匹配，则需使用 preg_match_all() 函数。

preg_match (pattern , subject, matches)

示例1-查找字母：

<?php 
// 模式定界符后面的 "i" 表示不区分大小写字母的搜索 
if (preg_match ("/hi/i", "Welcome to hi-docs.com.")) { 
  echo "A match was found."; 
 } else { 
  echo "A match was not found."; 
 } 
 ?> 

输出：
A match was found.

示例2-匹配字符串中的url超链接

<?php
$urls = '<h3><a target="_blank" href="/php/preg_match.html"><span class="hl">preg</span>_match()</a></h3><p>[<a href="/Php.html">PHP</a>] 进行正则表达式匹配<br/><em>适用版本：5</em></p></dd><dd><h3><a target="_blank" href="/php/preg_match_all.html"><span class="hl">preg</span>_match_all()</a></h3>';
if(preg_match("/<a[^>]*?href=\"([^>]+?)\"[^>]*?>.+?<\/a>/i", $urls ,$match)) { 
  print_r($match); 
 } else { 
  echo "不匹配."; 
 } 
 ?>

输出：
Array
(
    [0] => <a target="_blank" href="/php/preg_match.html"><span class="hl">preg</span>_match()</a>
    [1] => /php/preg_match.html
)

示例3-使用正则表达式匹配中文

$str = 'preg_match正则匹配中文123';
// 正则表达式匹配中文(UTF8编码)
if(preg_match('/[\x{4e00}-\x{9fa5}]+/u',$str)){
    echo '匹配';
}else{
    echo '没有匹配';
}
// 正则表达式匹配中文(GB2312,GBK编码)
preg_match("/^[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+$/",$str);

根据货号匹配相关数据：

define('runcode', 1);


$sku = "颜色分类:A722287962 棕色;尺码:XXL;情侣款:男款";

// 中文用正则匹配
$pattern = "/[\x{4e00}-\x{9fa5}]+[:|;|；|\s]([A-Za-z0-9_-]+)\s*(.*)?[:|;|；|\s]+[\x{4e00}-\x{9fa5}]+[:|;|；|\s]([A-Za-z0-9]+)/u";
if(preg_match($pattern, $sku, $matches))
{
  dump($matches);
}

打印结果：

Array
(
    [0] => 颜色分类:A722287962 棕色;尺码:XXL
    [1] => A722287962
    [2] => 棕色
    [3] => XXL
)

preg_match用法讲解

PHP正则表达式规则及常用方法整理

Corwien

引用和评论

CDH6 离线安装

JS正则表达式知识点归纳

在线考试答题系统（Web+H5+小程序）开发方案与实现附源代码

一个PHPer的偷懒哲学：如何用两套模板跳过重复造轮子

一文（加代码示例）说透在线客服系统技术难点

php+mysql 搭建一个在线游戏网站目前已有2000+游戏【代码解析一】

Typecho 入门指南：个人博客网站保姆级攻略！

PHP正则表达式规则及常用方法整理

Corwien

引用和评论

CDH6 离线安装

JS正则表达式知识点归纳

在线考试答题系统（Web+H5+小程序）开发方案与实现附源代码

一个PHPer的偷懒哲学：如何用两套模板跳过重复造轮子

一文（加代码示例）说透在线客服系统技术难点

php+mysql 搭建一个在线游戏网站目前已有2000+游戏【代码解析 一】

Typecho 入门指南：个人博客网站保姆级攻略！

php+mysql 搭建一个在线游戏网站目前已有2000+游戏【代码解析一】