数据表示
LLVM IR和其它的汇编语言类似,其核心就是对数据的操作。这涉及到了两个问题:什么数据和怎么操作。具体到这篇文章中,我就将介绍的是,在LLVM IR中,是如何表示一个数据的。
汇编层次的数据表示
LLVM IR是最接近汇编语言的一层抽象,所以我们首先需要了解在计算机底层,汇编语言的层次中,数据是怎样表示的。
谈到汇编层次的数据表示,一个老生常谈的程序就是
#include <stdlib.h>
int global_data = 0;
int main() {
int stack_data = 0;
int *heap_pointer = (int *)malloc(16 * sizeof(int));
return 0;
}
我们知道,一个C语言从代码到执行的过程是代码-->硬盘上的二进制程序-->内存中的进程。在代码被编译到二进制程序的时候,global_data
本身就写在了二进制程序中。在操作系统将二进制程序载入内存时,就会在特定的区域(数据区)初始化这些值。而stack_data
代表的局部变量,则是在程序执行其所在的函数时,在栈上初始化,类似地,heap_pointer
这个指针也是在栈上,而其指向的内容,则是操作系统分配在堆上的。
用一个图可以简单地表示:
+------------------------------+
| stack_data |
| heap_pointer | <------------- stack
+------------------------------+
| |
| | <------------- available memory space
| |
+------------------------------+
| data pointed by heap_pointer | <------------- heap
+------------------------------|
| global_data | <------------- .data section
+------------------------------+
这就是一个简化后的进程的内存模型。也就是说,一共有三种数据:
- 栈上的数据
- 堆中的数据
- 数据区里的数据
但是,我们仔细考虑一下,在堆中的数据,能否独立存在。操作系统提供的在堆上创建数据的接口如malloc
等,都是返回一个指针,那么这个指针会存在哪里呢?寄存器里,栈上,数据区里,或者是另一个被分配在堆上的指针。也就是说,可能会是:
#include <stdlib.h>
int *global_pointer = (int *)malloc(16 * sizeof(int));
int main() {
int *stack_pointer = (int *)malloc(16 * sizeof(int));
int **heap_pointer = (int **)malloc(sizeof(int *));
*heap_pointer = (int *)malloc(16 * sizeof(int));
return 0;
}
但不管怎样,堆中的数据都不可能独立存在,一定会有一个位于其他位置的引用。所以,在内存中的数据按其表示来说,一共分为两类:
- 栈上的数据
- 数据区里的数据
除了内存之外,还有一个存储数据的地方,那就是寄存器。因此,我们在程序中可以用来表示的数据,一共分为三类:
- 寄存器中的数据
- 栈上的数据
- 数据区里的数据