4

数字(Number)

除正常的数字(digit)之外,还有可能包括正、负号,科学计数法,小数位,甚至用逗号分隔千分位。

逻辑规则:

  • 起始位后一定是+/-号,也可以没有 ^[+-]?
  • 至少有一位以上的数字 \d+
  • 可能会跟着千分位分隔的逗号,暂时不考虑是否一定是3位分隔,规则可以出现一次或多次 (,\d+)*
  • 如果是小数那么一定是小数点后带有至少一位以上的数字,规则仅能出现一次 (.\d+)
  • 如果是科学计数法,则前面一定是小数,后面跟有e和次幂,规则仅能出现一次 (.\d+(e\d+))
  • 任何数字的结尾必须是数字

满足上述条件检验数字的正则表达式为:^[+-]?\d+(,\d+)*(.\d+(e\d+)?)?$

符合该条件的example包括:

  • 3 (整数)
  • 3.14 (小数)
  • +3.14 (带有+标识数字)
  • -2.5 (带有-标识数字)
  • 128,234 (会计计数法)
  • 1.9e10 (科学计数法)

且过滤掉小数点重复出现多次,科学技术法不合规或重复出现多次,非数字如720p的字符串
此处尤其要注意科学的条件,前面必须是合法小数后面是e和次幂,注意次幂必须有。


电话号码(Phone Numbers)

美国的电话号码规则:总计10位数字,但有可能带有国家号码1。可以接受的输入格式包括:

  • xxx-xxx-xxxx
  • xxx xxx xxxx
  • (xxx)xxx-xxxx
  • xxxxxxxxxx
  • 1 上述格式组合
  • +1 上述格式组合

满足上述条件检验美国电话的正则表达式为:^(+?1[\s-])?(?\d{3})?[\s-]?\d{3}[\s-]?\d{4}$

进一步可以将国家号的验证修改为(+?\d+[\s-])?,这样就可以支持诸如+86, 86 , 86-这样的格式了。

中国的手机规则:总计11位数字,一般情况下不加上任何特殊符号的分隔。如果仅考虑以下4种格式:

  • xxxxxxxxxxx
  • +86-xxxxxxxxxxx
  • +86 xxxxxxxxxxx
  • +86xxxxxxxxxxx

满足上述条件检验中国手机号码的正则表达式为:^(+86[\s-]?)?\d{11}$


邮件(Email)

由于工作需要,更详细的查阅了RFC对于邮件地址的标准要求。Google了很久居然始终没有找到一份靠谱的中文翻译。在此共享给大家,希望大家不用再去痛苦的翻那RFC晦涩的文档。

根据RFC 3696的规定,邮件地址(Email Address)被@符号分割为以下两个组成部分:local name和domain name.

Local Name

  • 长度不超过64个字符
  • 可以由除@、反斜杠()、双引号("")、逗号和方括号([ ])之外,任何ASCII Graphic字符组成。
  • 可以使用句号(.),但是不能出现在首尾的位置
  • 对于一些特殊情况,如老旧的系统、特殊目的的服务器,可以使用全部ASCII字符(包括控制字符在内),但是必须使用反斜杠转义单个字符,或者使用双引号转义整个字符串。

Domain Name

  • 长度不超过255个字符
  • 只可以使用字母、数字和短横线(-)
  • 可以使用短横线(-),但是不能出现在首尾的位置
  • 其余的要求包括顶级域名的白名单,每一级域名不可以超过64个字符、不可全部由数字组成等等

对于日常使用中,忽略Local Name第4点的要求1和Domain Name对域名合法性的过滤,可以使用如下正则表达式检验Email的合法性:

^[A-Za-z0-9!#$%&'+/=?^_`{|}~-]+(.[A-Za-z0-9!#$%&'+/=?^_`{|}~-]+)*@([A-Za-z0-9]+(?:-[A-Za-z0-9]+)?.)+[A-Za-z0-9]+(-[A-Za-z0-9]+)?$

如果使用Javascript的话,可以通过split函数,进一步检验每一部分的长度。

isemail: function(string){
    if(typeof string === "string"){
        var regex = /^[A-Za-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[A-Za-z0-9!#$%&'*+/=?^_`{|}~-]+)*@([A-Za-z0-9]+(?:-[A-Za-z0-9]+)?\.)+[A-Za-z0-9]+(?:-[A-Za-z0-9]+)?$/;
        var temp = string.split("@");
        return regex.test(string) && temp[0].length <= 64 && temp[1].length <= 255;
     }
     else{
         return false;
     }
}

邮件的格式较为复杂,虽然实际上允许多级域名,只要长度保证在255个字符以内即可。不过更加常见的情况是,考虑@前面使用字符和.的情况,以及@后面可能会有二级域名的情况。如果不要求严格性而只是起到对于用户的提示作用的话,满足上述条件检验邮件的正则表达式为:^[\w.]+(+[\w.]+)?@\w+(.\w+){1,2}$

如果可能的话,理解了原理之后,还是更加推荐使用成熟的库自带的email检验函数,毕竟重复造轮子不是一件非常有效率的事情。


密码(Password)

不同强度的密码,
要求至少包含数字或字母:[\da-zA-Z]\d+[a-zA-Z]+[\da-zA-Z]

必须数字、字母和特殊字符3种混排的:
(\d+[a-zA-Z]+[-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+) #数字开头 |(\d+[-=\[];',./~!@#$%^&()_+|{}:"<>?]+[a-zA-Z]+) #数字开头
|([a-zA-Z]+\d+[-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+) #字母开头 |([a-zA-Z]+[-=\[];',./~!@#$%^&
()+|{}:"<>?]+\d+) #字母开头
|([-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+\d+[a-zA-Z]+) #特殊字符开头 |([-=\[];',./~!@#$%^&*()
+|{}:"<>?]+[a-zA-Z]+\d+) #特殊字符开头


IP地址

IP地址是由4个使用句号(.)分割的数字序列组成,每段的数值取值在0-255之间。
由于数字会被当成字符看待,而没有大小关系,使用正则表达式检验数字范围是一件非常麻烦的事情。

检验IP地址的正则表达式如下:
(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9]).{3}(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9])

使用Javascript,稍微优雅一点的表达方式

ip: function(string){
    var octet = '(?:25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9])';
    var ip    = '(?:' + octet + '\\.){3}' + octet;
    var ipRE  = new RegExp( '^' + ip + '$' );
    return ipRE.test(string);
}

HTML

HTML更为推荐使用其他的方式而非正则表达式进行过滤。
获取Tag:<(\w+)
获取Tag内容:>([\w\s])<
获取Attribute的值:='([\w://.]
)


更新记录

2014年9月5日修改
原本的正则表达式中没有考虑到yeelan0319@sf.com.32y8498这样的内容也会被判定为true。还是对于正则表达式并非“全部字符串匹配”,而是只要出现“符合正则表达式规定的内容即可”的理解不够透彻。说来说去最后好像还是推荐使用已经成熟的库比较好,毕竟重复造轮子是一件太过于低效率的事情

2015年3月4日修改
根据RFC规定,更新了符合RFC详细要求的email的正则表达式。
添加了IP地址的检验正则


  1. 虽然此处没有考虑Local Name的第4点要求,但是RFC中其实规定,浏览器(Client Side)端检验不应该拒绝该格式的输入,而应该交由邮件服务器实际在执行过程中判断其合法性,因为这样的格式其实是完全合法的。此处其实是我偷懒了。 


yeelan0319
1k 声望49 粉丝

虽然我是这个世界的晚来者,但是却会比任何人更快的前进,只是因为我热爱这个世界。