Linux下进程地址空间的布局及堆栈帧的结构任何一个程序通常都包括

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.Linux下进程地址空间的布局及堆栈帧的结构

任何一个程序通常都包括代码段和数据段，这些代码和数据本身都是静态的。程序要想运行，首先要由操作系统负责为其创建进程，并在进程的虚拟地址空间中为其代码段和数据段建立映射。光有代码段和数据段是不够的，进程在运行过程中还要有其动态环境，其中最重要的就是堆栈。图3所示为 Linux下进程的地址空间布局：

图3 Linux下进程地址空间的布局

首先，execve(2)会负责为进程代码段和数据段建立映射，真正将代码段和数据段的内容读入内存是由系统的缺页异常处理程序按需完成的。另外，execve(2)还会将bss段清零，这就是为什么未赋初值的全局变量以及static变量其初值为零的原因。进程用户空间的最高位置是用来存放程序运行时的命令行参数及环境变量的，在这段地址空间的下方和bss段的上方还留有一个很大的空洞，而作为进程动态运行环境的堆栈和堆就栖身其中，其中堆栈向下伸展，堆向上伸展。

知道了堆栈在进程地址空间中的位置，我们再来看一看堆栈中都存放了什么。相信读者对C语言中的函数这样的概念都已经很熟悉了，实际上堆栈中存放的就是与每个函数对应的堆栈帧。当函数调用发生时，新的堆栈帧被压入堆栈；当函数返回时，相应的堆栈帧从堆栈中弹出。典型的堆栈帧结构如图4所示。

堆栈帧的顶部为函数的实参，下面是函数的返回地址以及前一个堆栈帧的指针，最下面是分配给函数的局部变量使用的空间。一个堆栈帧通常都有两个指针，其中一个称为堆栈帧指针，另一个称为栈顶指针。前者所指向的位置是固定的，而后者所指向的位置在函数的运行过程中可变。因此，在函数中访问实参和局部变量时都是以堆栈帧指针为基址，再加上一个偏移。对照图4可知，实参的偏移为正，局部变量的偏移为负。

图4 典型的堆栈帧结构

介绍了堆栈帧的结构，我们再来看一下在Intel i386体系结构上堆栈帧是如何实现的。图5和图6分别是一个简单的C程序及其编译后生成的汇编程序。

图5 一个简单的C程序example1.c

int function(int a, int b, int c)

{

char buffer[14];

int sum;

sum = a + b + c;

return sum;

}

void main()

{

int i;

i = function(1,2,3);

}

图6 example1.c编译后生成的汇编程序example1.s

1 .file "example1.c"

2 .version "01.01"

3 gcc2_compiled.:

4 .text

5 .align 4

6 .globl function

7 .type function,@function

8 function:

9 pushl %ebp

10 movl %esp,%ebp

11 subl $20,%esp

12 movl 8(%ebp),%eax

13 addl 12(%ebp),%eax

14 movl 16(%ebp),%edx

15 addl %eax,%edx

16 movl %edx,-20(%ebp)

17 movl -20(%ebp),%eax

18 jmp .L1

19 .align 4

20 .L1:

21 leave

22 ret

23 .Lfe1:

24 .size function,.Lfe1-function

25 .align 4

26 .globl main

27 .type main,@function

28 main:

29 pushl %ebp

30 movl %esp,%ebp

31 subl $4,%esp

32 pushl $3

33 pushl $2

34 pushl $1

35 call function

36 addl $12,%esp

37 movl %eax,%eax

38 movl %eax,-4(%ebp)

39 .L2:

40 leave

41 ret

42 .Lfe2:

43 .size main,.Lfe2-main

44 .ident "GCC: (GNU) 2.7.2.3"

这里我们着重关心一下与函数function对应的堆栈帧形成和销毁的过程。从图5中可以看到，function是在main中被调用的，三个实参的值分别为1、2、3。

由于C语言中函数传参遵循反向压栈顺序，所以在图6中32至34行三个实参从右向左依次被压入堆栈。接下来35行的 call指令除了将控制转移到function 之外，还要将call的下一条指令addl的地址，也就是function函数的返回地址压入堆栈。下面就进入function函数了，首先在第9行将main函数的堆栈帧指针ebp保存在堆栈中并在第10行将当前的栈顶指针esp保存在堆栈帧指针ebp中，最后在第11行为function函数的局部变量buffer[14]和sum在堆栈中分配空间。至此，函数function的堆栈帧就构建完成了，其结构如图7所示。

图7 函数function的堆栈帧

读者不妨回过头去与图4对比一下。这里有几点需要说明。首先，在Intel i386体系结构下，堆栈帧指针的角色是由ebp扮演的，而栈顶指针的角色是由esp

扮演的。另外，函数function的局部变量buffer[14] 由14个字符组成，其大小按说应为14字节，但是在堆栈帧中却为其分配了16个字节。这是时间效率和空间效率之间的一种折衷，因为Intel i386是32位的处理器，其每次内存访问都必须是4字节对齐的，而高30位地址相同的4个字节就构成了一个机器字。因此，如果为了填补 buffer[14]留下的两个字节而将sum分配在两个不同的机器字中，那么每次访问sum就需要两次内存操作，这显然是无法接受的。还有一点需要说明的是，正如我们在本文前言中所指出的，如果读者使用的是较高版本的gcc的话，您所看到的函数function对应的堆栈帧可能和图7所示有所不同。上面已经讲过，为函数function的局部变量buffer[14]和sum在堆栈中分配空间是通过在图6中第11行对esp进行减法操作完成的，而sub 指令中的20正是这里两个局部变量所需的存储空间大小。但是在较高版本的gcc中，sub 指令中出现的数字可能不是20，而是一个更大的数字。应该说这与优化编译技术有关，在较高版本的gcc中为了有效运用目前流行的各种优化编译技术，通常需要在每个函数的堆栈帧中留出一定额外的空间。