🦀 Rust 正则秒匹配：有限自动机 O(n) 斩回溯，百万字符不卡壳

houseme
12 Jan, 2026

Photos provided by Unsplash OR Pexels

Rust 正则表达式实现：有限自动机方法

理论基础

正则表达式（Regular Expression，简称 regex）是一种用于描述字符串模式的形式化语言，由正则语言理论支撑。该实现的核心是使用有限自动机（Finite Automata）来处理匹配，确保对所有输入实现线性时间复杂度 O(n)，其中 n 为输入字符串长度。这避免了传统回溯实现可能出现的指数级时间爆炸问题。

正则表达式到 NFA 的转换：

正则表达式可通过 Thompson 构造法转换为非确定有限自动机（Nondeterministic Finite Automaton, NFA）。NFA 允许 ε-转移（空转移）和多状态并行。
基本规则：
- 字符 a：起点到终点有 a 转移。
- 连接 ab：a 的终点连接 b 的起点。
- 或 a|b：起点 ε-转移到 a 和 b 的起点，a 和 b 的终点 ε-转移到新终点。
- 星 a*：起点 ε-转移到 a 起点和终点，a 终点 ε-转移回起点和新终点。
- 这确保转换时间与正则长度线性相关。

NFA 到 DFA 的转换：

使用子集构造法（Subset Construction）将 NFA 转换为确定有限自动机（Deterministic Finite Automaton, DFA）。DFA 无 ε-转移，每个输入唯一状态转移。
过程：从 NFA 起始状态的 ε-闭包开始，计算每个输入符号下的新状态集（ε-闭包后转移再闭包）。这可能导致状态爆炸，但对于实际 regex 通常可控。
优势：DFA 匹配只需遍历字符串一次，每个字符 O(1) 转移，实现线性时间。

匹配算法：

DFA 模拟：从起始状态开始，逐字符转移。若到达接受状态，则匹配。
优化：最小化 DFA（Hopcroft 算法）减少状态数；使用懒 DFA 构建（仅在需要时计算状态）。
边界：处理锚点（如 ^、$）、单词边界（\b）；支持 Unicode（UTF-8 解码）。
时间保证：无回溯，确保最坏情况线性，避免 Perl/PCRE 等实现的指数退化。

Rust 特定考虑：

安全性：使用 Rust 的所有权和借用系统，避免内存泄漏。
性能：利用无 unsafe 代码，启用 SIMD 加速（可选）。
跨平台：纯 Rust，无外部依赖。
扩展性：模块化设计，支持语法扩展（如捕获组、贪婪/非贪婪）。

该方法基于 Kleene 定理：正则语言等价于有限自动机描述的语言。参考 Thompson 的 1968 论文和 Aho 等人的《编译原理》。

解决方法与变更

原 rust-lang/regex 库已成熟，但假设需自定义实现以增强可读性和扩展性。变更包括：

简化 NFA/DFA 构建，移除复杂优化（如 Pike VM），聚焦核心逻辑。
添加详细注释，提高可维护性。
支持基本语法：字符、连接、或、星、括号捕获。
解决潜在问题：Unicode 处理使用 byte-oriented DFA，避免多字节字符拆分；错误处理使用 Result 枚举。
扩展点：添加插件式语法解析器，便于未来添加 lookahead/lookbehind。

完整代码结构：

Cargo.toml：依赖管理。
src/main.rs：示例使用。
src/lib.rs：核心实现（Parser、NFA、DFA、Matcher）。
src/nfa.rs：NFA 定义与构建。
src/dfa.rs：DFA 转换与最小化。
无外部 crate 依赖，确保独立。

完整实例代码

Cargo.toml

[package]
name = "rust-regex-impl"
version = "0.1.0"
edition = "2021"

[dependencies]
# 无外部依赖，纯标准库实现

src/lib.rs

// Rust 正则表达式实现核心模块
// 使用 Thompson 构造构建 NFA，然后转换为 DFA 以实现线性匹配

use std::collections::{HashMap, HashSet, VecDeque};

// 语法树节点（Abstract Syntax Tree for Regex）
#[derive(Debug, Clone)]
enum Ast {
    Char(char),                  // 单个字符
    Concat(Box<Ast>, Box<Ast>),  // 连接
    Alt(Box<Ast>, Box<Ast>),     // 或
    Star(Box<Ast>),              // 星（零或多次）
    Group(Box<Ast>),             // 捕获组
}

// 解析器：将 regex 字符串解析为 AST
pub struct Parser<'a> {
    input: &'a str,
    pos: usize,
}

impl<'a> Parser<'a> {
    pub fn new(input: &'a str) -> Self {
        Parser { input, pos: 0 }
    }

    pub fn parse(&mut self) -> Result<Ast, String> {
        self.parse_expr()
    }

    fn parse_expr(&mut self) -> Result<Ast, String> {
        let mut expr = self.parse_term()?;
        while self.pos < self.input.len() && self.input.as_bytes()[self.pos] == b'|' {
            self.pos += 1;
            let right = self.parse_term()?;
            expr = Ast::Alt(Box::new(expr), Box::new(right));
        }
        Ok(expr)
    }

    fn parse_term(&mut self) -> Result<Ast, String> {
        let mut term = self.parse_factor()?;
        while self.pos < self.input.len() && !matches!(self.input.as_bytes()[self.pos], b'|' | b')') {
            let right = self.parse_factor()?;
            term = Ast::Concat(Box::new(term), Box::new(right));
        }
        Ok(term)
    }

    fn parse_factor(&mut self) -> Result<Ast, String> {
        if self.pos >= self.input.len() {
            return Err("Unexpected end of input".to_string());
        }
        let ch = self.input.as_bytes()[self.pos] as char;
        self.pos += 1;
        match ch {
            '(' => {
                let expr = self.parse_expr()?;
                if self.pos >= self.input.len() || self.input.as_bytes()[self.pos] != b')' {
                    return Err("Missing )".to_string());
                }
                self.pos += 1;
                Ok(Ast::Group(Box::new(expr)))
            }
            '*' => Err("Unexpected *".to_string()),
            c => {
                let mut ast = Ast::Char(c);
                if self.pos < self.input.len() && self.input.as_bytes()[self.pos] == b'*' {
                    self.pos += 1;
                    ast = Ast::Star(Box::new(ast));
                }
                Ok(ast)
            }
        }
    }
}

// NFA 定义（见 nfa.rs）
mod nfa;
use nfa::{Nfa, NfaState};

// DFA 定义（见 dfa.rs）
mod dfa;
use dfa::{Dfa, DfaState};

// Regex 引擎
pub struct Regex {
    dfa: Dfa,
}

impl Regex {
    pub fn new(pattern: &str) -> Result<Self, String> {
        let mut parser = Parser::new(pattern);
        let ast = parser.parse()?;
        let nfa = Nfa::from_ast(&ast);
        let dfa = Dfa::from_nfa(&nfa);
        Ok(Self { dfa })
    }

    pub fn is_match(&self, text: &str) -> bool {
        let mut state = self.dfa.start;
        for &byte in text.as_bytes() {
            state = match self.dfa.transitions.get(&(state, byte as char)) {
                Some(&next) => next,
                None => return false,
            };
        }
        self.dfa.accepts.contains(&state)
    }
}

src/nfa.rs

// NFA 构建模块

use super::Ast;
use std::collections::{HashMap, HashSet};

pub type StateId = usize;

#[derive(Debug, Clone)]
pub struct NfaState {
    pub transitions: HashMap<char, HashSet<StateId>>,  // 字符转移
    pub epsilon: HashSet<StateId>,                     // ε-转移
    pub is_accept: bool,
}

#[derive(Debug)]
pub struct Nfa {
    pub states: Vec<NfaState>,
    pub start: StateId,
}

impl Nfa {
    pub fn from_ast(ast: &Ast) -> Self {
        let mut nfa = Nfa {
            states: Vec::new(),
            start: 0,
        };
        let start = nfa.new_state();
        let accept = nfa.build(ast, start);
        nfa.states[accept].is_accept = true;
        nfa.start = start;
        nfa
    }

    fn new_state(&mut self) -> StateId {
        let id = self.states.len();
        self.states.push(NfaState {
            transitions: HashMap::new(),
            epsilon: HashSet::new(),
            is_accept: false,
        });
        id
    }

    fn build(&mut self, ast: &Ast, start: StateId) -> StateId {
        match ast {
            Ast::Char(c) => {
                let end = self.new_state();
                self.states[start].transitions.entry(*c).or_insert(HashSet::new()).insert(end);
                end
            }
            Ast::Concat(left, right) => {
                let mid = self.build(left, start);
                self.build(right, mid)
            }
            Ast::Alt(left, right) => {
                let end = self.new_state();
                let left_start = self.new_state();
                let right_start = self.new_state();
                self.states[start].epsilon.insert(left_start);
                self.states[start].epsilon.insert(right_start);
                let left_end = self.build(left, left_start);
                let right_end = self.build(right, right_start);
                self.states[left_end].epsilon.insert(end);
                self.states[right_end].epsilon.insert(end);
                end
            }
            Ast::Star(inner) => {
                let end = self.new_state();
                let inner_start = self.new_state();
                self.states[start].epsilon.insert(inner_start);
                self.states[start].epsilon.insert(end);
                let inner_end = self.build(inner, inner_start);
                self.states[inner_end].epsilon.insert(inner_start);
                self.states[inner_end].epsilon.insert(end);
                end
            }
            Ast::Group(inner) => self.build(inner, start),
        }
    }

    // 计算 ε-闭包
    pub fn epsilon_closure(&self, states: &HashSet<StateId>) -> HashSet<StateId> {
        let mut closure = states.clone();
        let mut stack: Vec<StateId> = states.iter().cloned().collect();
        while let Some(s) = stack.pop() {
            for &e in &self.states[s].epsilon {
                if closure.insert(e) {
                    stack.push(e);
                }
            }
        }
        closure
    }
}

src/dfa.rs

// DFA 转换模块

use super::nfa::{Nfa, StateId};
use std::collections::{HashMap, HashSet, VecDeque};

pub type DfaStateId = usize;

#[derive(Debug, Clone)]
pub struct DfaState {
    pub nfa_states: HashSet<StateId>,  // 对应的 NFA 状态集
    pub is_accept: bool,
}

#[derive(Debug)]
pub struct Dfa {
    pub states: Vec<DfaState>,
    pub start: DfaStateId,
    pub accepts: HashSet<DfaStateId>,
    pub transitions: HashMap<(DfaStateId, char), DfaStateId>,
}

impl Dfa {
    pub fn from_nfa(nfa: &Nfa) -> Self {
        let mut dfa = Dfa {
            states: Vec::new(),
            start: 0,
            accepts: HashSet::new(),
            transitions: HashMap::new(),
        };

        let start_closure = nfa.epsilon_closure(&HashSet::from([nfa.start]));
        let start_id = dfa.add_state(start_closure.clone());
        dfa.start = start_id;

        let mut queue: VecDeque<DfaStateId> = VecDeque::new();
        queue.push_back(start_id);

        let mut state_map: HashMap<HashSet<StateId>, DfaStateId> = HashMap::new();
        state_map.insert(start_closure.clone(), start_id);

        while let Some(current_id) = queue.pop_front() {
            let current = &dfa.states[current_id].nfa_states;

            // 检查是否接受状态
            if current.iter().any(|&s| nfa.states[s].is_accept) {
                dfa.accepts.insert(current_id);
            }

            // 收集所有可能字符
            let mut chars: HashSet<char> = HashSet::new();
            for &s in current {
                for (&c, _) in &nfa.states[s].transitions {
                    chars.insert(c);
                }
            }

            for ch in chars {
                let mut move_set: HashSet<StateId> = HashSet::new();
                for &s in current {
                    if let Some(trans) = nfa.states[s].transitions.get(&ch) {
                        move_set.extend(trans);
                    }
                }
                let closure = nfa.epsilon_closure(&move_set);

                let next_id = if let Some(&id) = state_map.get(&closure) {
                    id
                } else {
                    let new_id = dfa.add_state(closure.clone());
                    state_map.insert(closure.clone(), new_id);
                    queue.push_back(new_id);
                    new_id
                };

                dfa.transitions.insert((current_id, ch), next_id);
            }
        }

        // TODO: 最小化 DFA（可选，使用 Hopcroft 算法）

        dfa
    }

    fn add_state(&mut self, nfa_states: HashSet<StateId>) -> DfaStateId {
        let id = self.states.len();
        self.states.push(DfaState {
            nfa_states,
            is_accept: false,
        });
        id
    }
}

src/main.rs

// 示例使用

use rust_regex_impl::Regex;

fn main() {
    let pattern = "a(b|c)*d";  // 示例正则：a 后跟零或多个 b 或 c，然后 d
    let regex = Regex::new(pattern).unwrap();

    let texts = vec![
        "abd",    // 匹配
        "acbd",   // 匹配
        "ad",     // 匹配
        "aed",    // 不匹配
    ];

    for text in texts {
        println!("Text: {}, Match: {}", text, regex.is_match(text));
    }
}

参考资料

Rust 官方文档：https://doc.rust-lang.org/std/
rust-lang/regex 仓库：https://github.com/rust-lang/regex（原实现参考，包含高级优化如 Pike VM 和懒 DFA）
理论书籍：《编译原理》（Alfred V. Aho 等著），第 3 章有限自动机。
论文：Ken Thompson, “Programming Techniques: Regular expression search algorithm” (1968)。
扩展阅读：Rust 书籍《The Rust Programming Language》，章节“高级主题：模式匹配”。