涨姿势啦！Go语言中正则表达式初始化的最佳实践

在 Go 语言开发中，正则表达式是一个强大的工具，用于处理字符串匹配和提取。

然而，正则表达式的编译过程是比较耗费性能的，因此在初始化正则表达式时需要考虑性能和代码的可读性。本文将讨论两种主要的正则表达式初始化方式，并给出最佳实践建议。

为什么正则表达式编译耗费性能？

在 Go 语言中，编译正则表达式会消耗性能，主要原因在于正则表达式编译过程的复杂性和底层实现细节。以下是几个关键原因：

解析和转换：
- 正则表达式在使用之前需要解析成一个中间表示（例如，抽象语法树）。
- 解析过程需要对正则表达式的每个字符进行分析，并将其转换为相应的正则操作。这需要进行多次字符串操作和条件判断。
构建状态机：
- 正则表达式在解析后需要被转换为一种状态机（如 NFA（非确定性有限自动机）或 DFA（确定性有限自动机））。
- 构建状态机涉及创建状态和转换，并将正则表达式的各个部分映射到这些状态和转换上。
- 这个过程需要处理正则表达式的所有特性，包括字符集、重复、分组、回溯等。
优化和预处理：
- 为了提高匹配性能，编译器会尝试对正则表达式进行优化，比如消除冗余状态、合并相似的状态、提前匹配常见的简单模式等。
- 这些优化需要额外的计算和内存。
内存分配：
- 在编译过程中，需要分配内存来存储中间表示、状态机、优化数据等。
- 多次内存分配和释放会增加垃圾回收的负担，从而影响性能。
复杂性增长：
- 正则表达式的复杂性会直接影响编译时间。复杂的正则表达式包含更多的字符集、重复、分组等，会增加编译器的工作量。
- 编译时间和资源消耗通常会随着正则表达式的复杂性呈非线性增长。

举个栗子🌰

以下是一个简单的示例，演示编译正则表达式的消耗：

package main

import (
    "fmt"
    "regexp"
    "time"
)

func main() {
    start := time.Now()

    // 编译正则表达式
    pattern := `^(?:[a-z0-9!#$%&'*+/=?^_` + "`" + `{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_` + "`" + `{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|\[IPv6:[0-9a-fA-F]{1,4}(?::[0-9a-fA-F]{1,4}){7}\])\])$`
    re, err := regexp.Compile(pattern)
    if err != nil {
        fmt.Println("Error compiling regex:", err)
        return
    }

    duration := time.Since(start)
    fmt.Printf("Regex compiled in %s\n", duration)

    // 使用正则表达式
    testStr := "example@example.com"
    fmt.Println("Match:", re.MatchString(testStr))
    fmt.Printf("end in %s\n", time.Since(start))
}

我们看一下打印结果如何：

第一次，多打印几次耗时情况

在上述示例中，我们编译一个复杂的正则表达式，并测量其耗时。可以看到，编译复杂的正则表达式确实需要一定时间。

优化建议

为了减少正则表达式编译的性能消耗，可以采取以下措施：

预编译：
- 在程序初始化时就编译所有正则表达式，并将编译后的 regexp 对象缓存起来。这样在后续使用中就不需要重复编译。

还是以上的代码逻辑，只不过，此时我们在编译正则的时候调整到包级别

package main

import (
    "fmt"
    "regexp"
    "time"
)

var (
    pattern = `^(?:[a-z0-9!#$%&'*+/=?^_` + "`" + `{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_` + "`" + `{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|\[IPv6:[0-9a-fA-F]{1,4}(?::[0-9a-fA-F]{1,4}){7}\])\])$`
    re = regexp.MustCompile(pattern)
)

func main() {
    start := time.Now()

    duration := time.Since(start)
    fmt.Printf("Regex compiled in %s\n", duration)

    // 使用正则表达式
    testStr := "example@example.com"
    fmt.Println("Match:", re.MatchString(testStr))
    fmt.Printf("end in %s\n", time.Since(start))
}

然后我们再看一下代码执行耗时情况：

第二次，调整代码之后的打印结果

我们可以看一下，只是做了一个简单的代码调整，代码执行耗时就减少了好几倍！

简化正则表达式：
- 尽量简化正则表达式，使其易于解析和构建状态机。
分段处理：
- 对于特别复杂的匹配需求，可以将其分解为多个简单的正则表达式，并分段处理。

通过这些优化措施，可以显著减少正则表达式编译的性能消耗。

其中，预编译时，我们还可以有两种方式可以选择：

1. 预编译——包级别变量初始化

直接在包级别声明并初始化正则表达式变量是一种简单直接的方式，适合简单的初始化需求。

package main

import (
    "fmt"
    "regexp"
)

var emailRegex = regexp.MustCompile(`^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$`)

func main() {
    testStr := "example@example.com"
    fmt.Println("Match:", emailRegex.MatchString(testStr))
}

优点：

代码简洁，易于理解。
初始化过程非常直接。

缺点：

无法处理初始化错误。
当初始化逻辑变复杂时，代码可读性降低。

2. 预编译——在 `init` 函数中初始化

将正则表达式的初始化逻辑放在 init 函数中，可以为复杂的初始化逻辑提供更多灵活性，适合需要进行错误处理或初始化多个变量的情况。

package main

import (
    "fmt"
    "log"
    "regexp"
)

var emailRegex *regexp.Regexp

func init() {
    var err error
    emailRegex, err = regexp.Compile(`^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$`)
    if err != nil {
        log.Fatalf("Failed to compile regex: %v", err)
    }
}

func main() {
    testStr := "example@example.com"
    fmt.Println("Match:", emailRegex.MatchString(testStr))
}

优点：

适合处理复杂的初始化逻辑。
可以进行错误处理，使程序更健壮。
初始化逻辑更加清晰，有利于代码维护。

缺点：

相对于包级别变量初始化，代码稍显冗长。

实际例子

对于简单的正则表达式初始化，可以直接使用包级别变量：

package main

import (
    "fmt"
    "regexp"
)

var emailRegex = regexp.MustCompile(`^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$`)

func main() {
    testStr := "example@example.com"
    fmt.Println("Match:", emailRegex.MatchString(testStr))
}

对于复杂的初始化逻辑，使用 init 函数会更适合：

package main

import (
    "fmt"
    "log"
    "regexp"
)

var (
    emailRegex  *regexp.Regexp
    phoneRegex  *regexp.Regexp
    urlRegex    *regexp.Regexp
)

func init() {
    var err error

    emailRegex, err = regexp.Compile(`^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$`)
    if err != nil {
        log.Fatalf("Failed to compile email regex: %v", err)
    }

    phoneRegex, err = regexp.Compile(`^\+?[1-9]\d{1,14}$`)
    if err != nil {
        log.Fatalf("Failed to compile phone regex: %v", err)
    }

    urlRegex, err = regexp.Compile(`https?://[^\s/$.?#].[^\s]*`)
    if err != nil {
        log.Fatalf("Failed to compile URL regex: %v", err)
    }
}

func main() {
    testEmail := "example@example.com"
    testPhone := "+1234567890"
    testURL := "https://www.example.com"

    fmt.Println("Email Match:", emailRegex.MatchString(testEmail))
    fmt.Println("Phone Match:", phoneRegex.MatchString(testPhone))
    fmt.Println("URL Match:", urlRegex.MatchString(testURL))
}

选择依据

选择使用包级别变量初始化还是 init 函数初始化，主要取决于初始化的复杂性和错误处理需求：

包级别变量初始化：适用于简单的初始化，不需要错误处理。
在 init 函数中初始化：适用于复杂的初始化逻辑，需要错误处理或多个变量初始化。

结论

在 Go 语言中初始化正则表达式时，应根据具体需求选择合适的初始化方式。对于简单的初始化，可以直接使用包级别变量，而对于复杂的初始化逻辑，使用 init 函数会更为合理。这不仅可以提高代码的可读性和维护性，还能确保程序的健壮性。

涨姿势啦！Go语言中正则表达式初始化的最佳实践

为什么正则表达式编译耗费性能？

举个栗子🌰

优化建议

1. 预编译——包级别变量初始化

2. 预编译——在 `init` 函数中初始化

实际例子

选择依据

结论

左诗右码

引用和评论

HTTP2.0 从原理到实践，保证把你治得服服帖帖！

腾讯 tRPC-Go 教学——（5）filter、context 和日志组件

Go slice切片使用教程，一次通关！

腾讯 tRPC-Go 教学——（1）搭建服务

gozero限流、熔断、降级如何实现？面试的时候怎么回答？

一文弄懂用Go实现MCP服务

如何系统地入门学习stm32？

涨姿势啦！Go语言中正则表达式初始化的最佳实践

为什么正则表达式编译耗费性能？

举个栗子🌰

优化建议

1. 预编译——包级别变量初始化

2. 预编译——在 init 函数中初始化

实际例子

选择依据

结论

左诗右码

引用和评论

HTTP2.0 从原理到实践，保证把你治得服服帖帖！

腾讯 tRPC-Go 教学——（5）filter、context 和日志组件

Go slice切片使用教程，一次通关！

腾讯 tRPC-Go 教学——（1）搭建服务

gozero限流、熔断、降级如何实现？面试的时候怎么回答？

一文弄懂用Go实现MCP服务

如何系统地入门学习stm32？

2. 预编译——在 `init` 函数中初始化