代码生成

计算机科学中,代码生成代码编译过程中的其中一个环节。在这个环节中,代码生成器会将某中間語言(IR)转换为机器可以执行的形式如机器码,或者另一门语言,如C语言代码[1]

工业级的编译器一般存在多个编译环节(Compiler pass)。第一个环节通常会将源代码转换成抽象语法树,而抽象语法树随后又会被转换成某种中间语言(IR)。编译器的中间环节会对这门中间语言进行各种变换以优化程序的性能。这种具有阶段性的编译方式,其优势在于允许编译器开发者复用前段和中端的代码,同时也降低了编译器的开发难度,因为一些优化算法的执行条件需要由其他优化算法完成,也因为一些算法需要一次次地重复执行。由于以上原因,复用性以及重复性都相对较低的代码生成器,一般位于编译过程中的最后几个环节。

主要工作

除了将中间语言转换成线性的机器码序列这项基本工作,典型的代码生成器也会试图优化生成出来的代码。

工业级编译器的代码生成阶段一般包括了:

  • 指令选择:决定了编译器使用哪些指令来表达中间语言中的某一操作。
  • 指令调度:决定了编译器以何种顺序放置这些选择好的指令。对于有流水线的目标机器,这个阶段有着关键影响。
  • 寄存器分配:目的是将每个变量与处理器上的寄存器一一对应。
  • 如果有相关需求,生成调试数据并且将其嵌入二进制文件中,以方便程序员调试程序。

运行时代码生成

即时编译(JIT)等场景下,会要求程序在运行时生成代码,而生成代码的时间和空间效率在这种情况下都极其重要。例如说,当有程序在运行时解释正则表达式,并根据该正则表达式生成代码时,通常该程序会先生成非确定有限状态自动机而不是确定有限状态自动机,因为通常前者的创建速度以及占用的内存空间等属性往往会比后者更为优秀。

参考文献

  1. ^ Steven Muchnick; Muchnick and Associates. Advanced Compiler Design Implementation. Morgan Kaufmann. 15 August 1997. ISBN 978-1-55860-320-2. code generation.