有限自动机的并集 - SegmentFault 思否

有限自动机的并集

发布于 2025-07-24

主要观点：

介绍在构建 Quamina 时计算两个有限自动机（FA）的并集的过程，从学术方法到程序员友好的方法。
有限自动机有多种状态，包括起始状态、终结状态等，还可能是确定性或非确定性的。
学术方法计算所有状态再过滤不可达状态，而程序员友好的方法是逐步合并状态。
讨论了作为输入符号驱动有限自动机的四种类型：Unicode 字符、UTF-8 字节、UTF-16 值、枚举值，Quamina 使用 UTF-8 字节。
给出了实现合并两个状态逻辑的 Go 代码mergeFAStates，包括 memoization、处理输入符号、处理状态转移等。
指出关于非确定性有限自动机的 epsilon 转移的讨论存在错误，一般情况下合并两个有 epsilon 转移的 NFA 状态的方法尚不明确。
最后通过基准测试表明这种简单的方法在处理确定性和非确定性 FA 时效率不错。

关键信息：

有限自动机的各种状态定义和性质。
学术方法和程序员友好方法的具体步骤差异。
输入符号的四种类型及 Quamina 使用的 UTF-8 字节。
Go 代码mergeFAStates的实现细节和功能。
非确定性有限自动机 epsilon 转移的问题及相关研究现状。
基准测试结果显示简单方法的效率。

重要细节：

代码中通过 memoization 避免重复计算合并状态，处理输入符号时通过遍历 UTF-8 字节值来确定状态转移。
对于非确定性有限自动机，处理 epsilon 转移时要考虑多个可能的转移状态，存在合并困难。
基准测试中合成的确定性 FA 有 440 万个状态，添加模式的速度为 500/秒；合成的 NFA 有 46K 个状态，添加模式的速度为 70K/秒。

Union of Finite Automata

https://www.tbray.org/ongoing/When/202x/2024/07/28/Union-of-Finite-Automata

阅读 81

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。