词法分析器实现

词法分析器架构

词法分析器（Scanner）的核心组件：

用状态转移矩阵 + 子表 + 三个寄存器实现：

主表（状态转移矩阵）+ 子表（不同词法单元的子 DFA），查表完成状态转移。优点是灵活易修改，缺点是查表开销大。

将每个状态实现为一个函数或代码段，状态转移通过函数调用或 goto 实现：

state0:
    c = nextchar();
    if (is_digit(c)) goto state1;
    if (is_letter(c)) goto state2;
    ...

优点是执行效率高，缺点是状态增加时代码维护困难。

重点两种实现方法的对比：表驱动法灵活、程序中心法高效。

当多个正规式匹配同一前缀时，选择匹配最长输入串的词法单元。

示例（ $+$ 、 $+ +$ 、 $+ =$ 三个正规式的合并 DFA）：

实现方式：合并各词法单元 DFA，读入字符尽可能多，直到无法继续转移时确定匹配。

重点最长匹配规则解决多正规式冲突，尽可能多地读入字符。