数字(Number)
除正常的数字(digit)之外,还有可能包括正、负号,科学计数法,小数位,甚至用逗号分隔千分位。
逻辑规则:
- 起始位后一定是+/-号,也可以没有 ^[+-]?
- 至少有一位以上的数字 \d+
- 可能会跟着千分位分隔的逗号,暂时不考虑是否一定是3位分隔,规则可以出现一次或多次 (,\d+)*
- 如果是小数那么一定是小数点后带有至少一位以上的数字,规则仅能出现一次 (.\d+)
- 如果是科学计数法,则前面一定是小数,后面跟有e和次幂,规则仅能出现一次 (.\d+(e\d+))
- 任何数字的结尾必须是数字
满足上述条件检验数字的正则表达式为:^[+-]?\d+(,\d+)*(.\d+(e\d+)?)?$
符合该条件的example包括:
- 3 (整数)
- 3.14 (小数)
- +3.14 (带有+标识数字)
- -2.5 (带有-标识数字)
- 128,234 (会计计数法)
- 1.9e10 (科学计数法)
且过滤掉小数点重复出现多次,科学技术法不合规或重复出现多次,非数字如720p的字符串
此处尤其要注意科学的条件,前面必须是合法小数后面是e和次幂,注意次幂必须有。
电话号码(Phone Numbers)
美国的电话号码规则:总计10位数字,但有可能带有国家号码1。可以接受的输入格式包括:
- xxx-xxx-xxxx
- xxx xxx xxxx
- (xxx)xxx-xxxx
- xxxxxxxxxx
- 1 上述格式组合
- +1 上述格式组合
满足上述条件检验美国电话的正则表达式为:^(+?1[\s-])?(?\d{3})?[\s-]?\d{3}[\s-]?\d{4}$
进一步可以将国家号的验证修改为(+?\d+[\s-])?,这样就可以支持诸如+86, 86 , 86-这样的格式了。
中国的手机规则:总计11位数字,一般情况下不加上任何特殊符号的分隔。如果仅考虑以下4种格式:
- xxxxxxxxxxx
- +86-xxxxxxxxxxx
- +86 xxxxxxxxxxx
- +86xxxxxxxxxxx
满足上述条件检验中国手机号码的正则表达式为:^(+86[\s-]?)?\d{11}$
邮件(Email)
由于工作需要,更详细的查阅了RFC对于邮件地址的标准要求。Google了很久居然始终没有找到一份靠谱的中文翻译。在此共享给大家,希望大家不用再去痛苦的翻那RFC晦涩的文档。
根据RFC 3696的规定,邮件地址(Email Address)被@符号分割为以下两个组成部分:local name和domain name.
Local Name
- 长度不超过64个字符
- 可以由除@、反斜杠()、双引号("")、逗号和方括号([ ])之外,任何ASCII Graphic字符组成。
- 可以使用句号(.),但是不能出现在首尾的位置
- 对于一些特殊情况,如老旧的系统、特殊目的的服务器,可以使用全部ASCII字符(包括控制字符在内),但是必须使用反斜杠转义单个字符,或者使用双引号转义整个字符串。
Domain Name
- 长度不超过255个字符
- 只可以使用字母、数字和短横线(-)
- 可以使用短横线(-),但是不能出现在首尾的位置
- 其余的要求包括顶级域名的白名单,每一级域名不可以超过64个字符、不可全部由数字组成等等
对于日常使用中,忽略Local Name第4点的要求1和Domain Name对域名合法性的过滤,可以使用如下正则表达式检验Email的合法性:
^[A-Za-z0-9!#$%&'+/=?^_`{|}~-]+(.[A-Za-z0-9!#$%&'+/=?^_`{|}~-]+)*@([A-Za-z0-9]+(?:-[A-Za-z0-9]+)?.)+[A-Za-z0-9]+(-[A-Za-z0-9]+)?$
如果使用Javascript的话,可以通过split函数,进一步检验每一部分的长度。
isemail: function(string){
if(typeof string === "string"){
var regex = /^[A-Za-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[A-Za-z0-9!#$%&'*+/=?^_`{|}~-]+)*@([A-Za-z0-9]+(?:-[A-Za-z0-9]+)?\.)+[A-Za-z0-9]+(?:-[A-Za-z0-9]+)?$/;
var temp = string.split("@");
return regex.test(string) && temp[0].length <= 64 && temp[1].length <= 255;
}
else{
return false;
}
}
邮件的格式较为复杂,虽然实际上允许多级域名,只要长度保证在255个字符以内即可。不过更加常见的情况是,考虑@前面使用字符和.的情况,以及@后面可能会有二级域名的情况。如果不要求严格性而只是起到对于用户的提示作用的话,满足上述条件检验邮件的正则表达式为:^[\w.]+(+[\w.]+)?@\w+(.\w+){1,2}$
如果可能的话,理解了原理之后,还是更加推荐使用成熟的库自带的email检验函数,毕竟重复造轮子不是一件非常有效率的事情。
密码(Password)
不同强度的密码,
要求至少包含数字或字母:[\da-zA-Z]\d+[a-zA-Z]+[\da-zA-Z]
必须数字、字母和特殊字符3种混排的:
(\d+[a-zA-Z]+[-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+) #数字开头
|(\d+[-
=\[];',./~!@#$%^&()_+|{}:"<>?]+[a-zA-Z]+) #数字开头
|([a-zA-Z]+\d+[-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+) #字母开头
|([a-zA-Z]+[-
=\[];',./~!@#$%^&()+|{}:"<>?]+\d+) #字母开头
|([-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+\d+[a-zA-Z]+) #特殊字符开头
|([-
=\[];',./~!@#$%^&*()+|{}:"<>?]+[a-zA-Z]+\d+) #特殊字符开头
IP地址
IP地址是由4个使用句号(.)分割的数字序列组成,每段的数值取值在0-255之间。
由于数字会被当成字符看待,而没有大小关系,使用正则表达式检验数字范围是一件非常麻烦的事情。
检验IP地址的正则表达式如下:
(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9]).{3}(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9])
使用Javascript,稍微优雅一点的表达方式
ip: function(string){
var octet = '(?:25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9])';
var ip = '(?:' + octet + '\\.){3}' + octet;
var ipRE = new RegExp( '^' + ip + '$' );
return ipRE.test(string);
}
HTML
HTML更为推荐使用其他的方式而非正则表达式进行过滤。
获取Tag:<(\w+)
获取Tag内容:>([\w\s])<
获取Attribute的值:='([\w://.])
更新记录
2014年9月5日修改
原本的正则表达式中没有考虑到yeelan0319@sf.com.32y8498这样的内容也会被判定为true。还是对于正则表达式并非“全部字符串匹配”,而是只要出现“符合正则表达式规定的内容即可”的理解不够透彻。说来说去最后好像还是推荐使用已经成熟的库比较好,毕竟重复造轮子是一件太过于低效率的事情
2015年3月4日修改
根据RFC规定,更新了符合RFC详细要求的email的正则表达式。
添加了IP地址的检验正则
-
虽然此处没有考虑Local Name的第4点要求,但是RFC中其实规定,浏览器(Client Side)端检验不应该拒绝该格式的输入,而应该交由邮件服务器实际在执行过程中判断其合法性,因为这样的格式其实是完全合法的。此处其实是我偷懒了。 ↩
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。