一次简单的js正则表达式的性能测试

最近用到js做一些文本处理,免不了涉及正则表达式,由于文本的规模会达到GB级,速度和还是很关键的。

根据 jsperf 上的测试发现,如果需要用到正则去匹配的话,还是预编译的表达式precompiled search表现最好。这是一个比较容易也比较重要的优化项。

看MDN发现有一个g flag代表global match也就是尝试所有可能的匹配。MDN上的相关解释如下。

Whether to test the regular expression against all possible matches in a string, or only against the first.

所有的又产生了一个疑问,如果我这需要判断是否存在一个表达式,不需要知道几个,也就是只用RegExp.test(),需不需要g flag,感觉加上有可能会使速度变慢,但是不确定,写了一个很简陋的性能测试。

var start = +new Date(),
    end,
    globalRegex = /someone/g,
    nonGlobalRegex = /someone/,
    testStr = 'This optimization makes the lexer more than twice as fast! Why does this make sense? First, if you think about it in the simplest way possible, the iteration over rules moved from Python code to C code (the implementation of the re module). Second, its even more than that. In the regex engine, | alternation doesnt simply mean iteration. When the regex is built, all the sub-regexes get combined into a single NFA - some states may be combined, etc. In short, the speedup is not surprising.someone';

for (var i = 100000; i >= 0; i--) {
  // with a g flag
  globalRegex.test(testStr);

  // without g flay
  // nonGlobalRegex.test(testStr);
}
end = +new Date();

console.log(end - start);

分别去掉注释分别运行发现带g flag的需要25-30ms,而不带g flag的却需要40+ms,和直觉相反。然后回想了一下g flag的作用,接着看文档,发现一个叫做lastIndex的属性:

The lastIndex is a read/write integer property of regular expressions that specifies the index at which to start the next match.

得知既然是尝试匹配所有可能,如果没有主动把lastIndex清零,则会继续上一次的匹配知道结束。所以以上代码如果是带g flag的情况上一次匹配完成,已经到了句末,加入此时console.log(globalRegex.lastIndex)会得到testStr.length,而且下一次会继续尝试向后匹配,并另计返回false。所以可以理解上述的时间差。

假如把for循环中带g flag的情况加一句:

for (var i = 100000; i >= 0; i--) {
  // with a g flag
  globalRegex.test(testStr);
  globalRegex.lastIndex = 0;

  // without g flay
  // nonGlobalRegex.test(testStr);
}

两种情况的运行结果都在40+ms。

结论:即使加上g flag理论上也不影响速度,只需要将lastIndex清零,不过清零还是需要消耗的,所以如果只需要匹配判断,可以不用g flag


生吞橘子

335 声望
8 粉丝
0 条评论
推荐阅读
利用原生 Javascript 实现 Delegated Event
举个例子说明一下,有一组按钮,每当点击其中一个按钮,就把这个按钮的状态变为 "active",再点一下就取消 "active" 状态,代码如下:

2hu10n92hen91阅读 5.6k评论 2

从零搭建 Node.js 企业级 Web 服务器(零):静态服务
过去 5 年,我前后在菜鸟网络和蚂蚁金服做开发工作,一方面支撑业务团队开发各类业务系统,另一方面在自己的技术团队做基础技术建设。期间借着 Node.js 的锋芒做了不少 Web 系统,有的至今生气蓬勃、有的早已夭折...

乌柏木150阅读 12.4k评论 10

正则表达式实例
收集在业务中经常使用的正则表达式实例,方便以后进行查找,减少工作量。常用正则表达式实例1. 校验基本日期格式 {代码...} {代码...} 2. 校验密码强度密码的强度必须是包含大小写字母和数字的组合,不能使用特殊...

寒青56阅读 7.9k评论 11

JavaScript有用的代码片段和trick
平时工作过程中可以用到的实用代码集棉。判断对象否为空 {代码...} 浮点数取整 {代码...} 注意:前三种方法只适用于32个位整数,对于负数的处理上和Math.floor是不同的。 {代码...} 生成6位数字验证码 {代码...} ...

jenemy46阅读 6.1k评论 12

从零搭建 Node.js 企业级 Web 服务器(十五):总结与展望
总结截止到本章 “从零搭建 Node.js 企业级 Web 服务器” 主题共计 16 章内容就更新完毕了,回顾第零章曾写道:搭建一个 Node.js 企业级 Web 服务器并非难事,只是必须做好几个关键事项这几件必须做好的关键事项就...

乌柏木66阅读 6.2k评论 16

再也不学AJAX了!(二)使用AJAX ① XMLHttpRequest
「再也不学 AJAX 了」是一个以 AJAX 为主题的系列文章,希望读者通过阅读本系列文章,能够对 AJAX 技术有更加深入的认识和理解,从此能够再也不用专门学习 AJAX。本篇文章为该系列的第二篇,最近更新于 2023 年 1...

libinfs40阅读 6.4k评论 12

封面图
从零搭建 Node.js 企业级 Web 服务器(一):接口与分层
分层规范从本章起,正式进入企业级 Web 服务器核心内容。通常,一块完整的业务逻辑是由视图层、控制层、服务层、模型层共同定义与实现的,如下图:从上至下,抽象层次逐渐加深。从下至上,业务细节逐渐清晰。视图...

乌柏木44阅读 7.5k评论 6

生吞橘子

335 声望
8 粉丝
宣传栏