【程序是怎样跑起来的】第1章:对程序员来说CPU是什么

CPU,程序,机器语言,内存,寄存器,控制器,运算器,时钟,主存,累加寄存器,标志寄存器,程序计数器,基址寄存器,变址寄存器,通用寄存器,指令寄存器,栈寄存器

Posted by x-jeff on February 19, 2023

博客为参考《程序是怎样跑起来的》一书,自己所做的读书笔记。
本文为原创文章,未经本人允许,禁止转载。转载请注明出处。

1.CPU的内部结构解析

👉第1章热身问答:

  1. 程序是什么?
    • 指示计算机每一步动作的一组指令。
  2. 程序是由什么组成的?
    • 指令和数据。例如,C语言“printf(“你好”);”这个简单的程序中,printf是指令,”你好”是数据。
  3. 什么是机器语言?
    • CPU可以直接识别并使用的语言。CPU能够直接识别和执行的只有机器语言。使用C、Java等语言编写的程序,最后都会转化成机器语言。
  4. 正在运行的程序存储在什么位置?
    • 内存。硬盘和磁盘等媒介上保存的程序被复制到内存后才能运行。
  5. 什么是内存地址?
    • 内存中,用来表示命令和数据存储位置的数值。内存中保存命令和数据的场所,通过地址来标记和指定。地址由整数值表示。
  6. 计算机的构成元件中,负责程序的解释和运行的是哪个?
    • CPU。

CPU是英文Central Processing Unit(中央处理器)的缩写,相当于计算机的大脑,它的内部由数百万至数亿个晶体管构成。

图1-1展示了程序运行的一般流程:

在这一流程中,CPU所负责的就是解释和运行最终转换成机器语言的程序内容。

CPU是用来表示计算机内部元件功能的术语。另一方面,奔腾等半导体芯片,通常称为微处理器。不过,由于大部分计算机通常只有一个微处理器来承担CPU的功能,所以本章不对此进行区分,统一使用CPU这一称呼。CPU由具有ON/OFF开关功能的晶体管构成。另外,有的CPU在一个集成电路中集成了两个CPU芯片,我们称之为双核(dual core)CPU。

CPU和内存是由许多晶体管组成的电子部件,通常称为IC(Integrated Circuit,集成电路)。从功能方面来看,如图1-2所示,CPU的内部由寄存器、控制器、运算器和时钟四个部分构成,各部分之间由电流信号相互连通。寄存器可用来暂存指令、数据等处理对象,可以将其看作是内存的一种。根据种类的不同,一个CPU内部会有20~100个寄存器。控制器负责把内存上的指令、数据等读入寄存器,并根据指令的执行结果来控制整个计算机。运算器负责运算从内存读入寄存器的数据。时钟负责发出CPU开始计时的时钟信号。不过,也有些计算机的时钟位于CPU的外部。

时钟信号英文叫做clock puzzle。Pentium 2 GHz表示时钟信号的频率为2 GHz(1 GHz=10亿次/秒)。也就是说,时钟信号的频率越高,CPU的运行速度越快。

接下来简单地解释一下内存。通常所说的内存指的是计算机的主存储器(main memory),简称主存。主存通过控制芯片等与CPU相连,主要负责存储指令和数据。主存由可读写的元素构成,每个字节(1字节=8位)都带有一个地址编号。CPU可以通过该地址读取主存中的指令和数据,当然也可以写入数据。但有一点需要注意,主存中存储的指令和数据会随着计算机的关机而自动清除。

主存位于计算机机体内部,是负责存储程序、数据等的装置。主存通常使用DRAM(Dynamic Random Access Memory,动态随机存取存储器)芯片。DRAM可以对任何地址进行数据的读写操作,但需要保持稳定的电源供给并时常刷新(确保是最新数据),关机后内容将自动清除。

程序启动后,根据时钟信号,控制器会从内存中读取指令和数据。通过对这些指令加以解释和运行,运算器就会对数据进行运算,控制器根据该运算结果来控制计算机。其实所谓的控制就是指数据运算以外的处理(主要是数据输入输出的时机控制)。比如内存和磁盘等媒介的输入输出、键盘和鼠标的输入、显示器和打印机的输出等,这些都是控制的内容。

1.1.寄存器和内存

用一张图说明寄存器和内存的区别:

寄存器位于CPU内部,而内存是独立于CPU之外的。

CPU可以直接从寄存器中拿数据进行计算操作。缓存是为了避免数据多次从一个地方拿到另一个地方,从而划分一块区域作为临时存放数据地址。缓存可以在寄存器之中,也可以是内存的某块区域。内存是存放我们需要处理的一些数据,全部都会先放到这块,然后等使用的时候,寄存器会去从缓存或者内存中获取数据。

2.CPU是寄存器的集合体

CPU的四个构成部分中,我们只需了解寄存器即可。因为程序是把寄存器作为对象来描述的

首先我们来看一下代码清单1-1:

这是用汇编语言(assembly)$^{1}$编写的程序的一部分。汇编语言采用助记符(memonic)来编写程序,每一个原本是电气信号的机器语言$^2$指令都会有一个与其相应的助记符,助记符通常为指令功能的英语单词的简写。例如,mov和add分别是数据的存储(move)和相加(addition)的简写。汇编语言和机器语言基本上是一一对应的。这一点和C语言、Java语言等高级编程语言$^3$有很大不同,这也是我们使用汇编语言来说明CPU运行的原因。通常我们将汇编语言编写的程序转化成机器语言的过程称为汇编;反之,机器语言程序转化成汇编语言程序的过程则称为反汇编

  1. 把汇编语言转化成机器语言的程序称为汇编器(assembler)。有时汇编语言也称为汇编。
  2. 机器语言是指CPU能直接解释和执行的语言。
  3. 高级编程语言是指能够使用类似于人类语言(主要是英语)的语法来记述的编程语言的总称。BASIC、C、C++、Java、Pascal、FORTRAN、COBOL等语言都是高级编程语言。使用高级编程语言编写的程序,经过编译转换成机器语言后才能运行。与高级编程语言相对,机器语言和汇编语言称为低级编程语言。

这里简单解释下代码清单1-1。dword表示双字,即四个字节。ptr表示指针。[]里的数据是一个地址,该地址指向一个双字型数据。mov eax, dword ptr [ebp-8]表示的就是把ebp-8这个地址上的双字型数据复制到eax。add eax, dword ptr [ebp-0Ch]表示把ebp-0Ch这个地址上的双字型数据加到eax上。mov dword ptr [ebp-4], eax表示把eax中保存的双字型数据存储在ebp-4这个地址中。

代码清单1-1中应该是有笔误,把eax写成了exa。上述解释不一定准确,但大概就是这个意思,后续博文会有对汇编语言的进一步介绍。

代码清单1-1中,eax和ebp表示的都是寄存器。

eax是累加寄存器,主要功能是运算。ebp是扩展基址指针寄存器,主要功能是存储数据存储领域基点的内存地址。

汇编语言是80386$^1$以上的CPU所使用的语言。eax和ebp是CPU内部的寄存器的名称。内存的存储场所通过地址编号来区分,而寄存器的种类则通过名字来区分。

  1. 80386是美国英特尔公司开发的微处理器的产品名。“80386以上”是指80386、80486、奔腾等微处理器。

使用高级语言编写的程序会在编译$^1$后转化成机器语言,然后再通过CPU内部的寄存器来处理。例如,a=1+2这样的高级语言的代码程序在转化成机器语言后,就是利用寄存器来进行相加运算和存储处理的。

  1. 编译是指将使用高级编程语言编写的程序转换为机器语言的过程,其中,用于转换的程序被称为编译器(compiler)。

不同类型的CPU,其内部寄存器的数量、种类以及寄存器存储的数值范围都是不同的。不过,根据功能的不同,我们可以将寄存器大致划分为八类,如表1-1所示。可以看出,寄存器中存储的内容既可以是指令也可以是数据。其中,数据分为“用于运算的数值”和“表示内存地址的数值”两种。数据种类不同,存储该数值的寄存器也不同。CPU中每个寄存器的功能都是不同的。

如图1-3所示,CPU是具有各种功能的寄存器的集合体。其中,程序计数器、累加寄存器、标志寄存器、指令寄存器和栈寄存器都只有一个,其他的寄存器一般有多个。

3.决定程序流程的程序计数器

图1-4是程序启动时内存内容的模型。用户发出启动程序的指示后,Windows等操作系统$^1$会把硬盘中保存的程序复制到内存中。示例中的程序实现的是将123和456两个数值相加,并将结果输出到显示器上。正如前文所介绍的那样,存储指令和数据的内存,是通过地址来划分的。由于使用机器语言难以清晰地表明各地址存储的内容,因此这里我们对各地址的存储内容添加了注释。实际上,一个命令和数据通常被存储在多个地址上,但为了便于说明,图1-4中把指令、数据分配到了一个地址中。

  1. 操作系统(operating system)是指管理和控制计算机硬件与软件资源的计算机程序。

地址0100是程序运行的开始位置。Windows等操作系统把程序从硬盘复制到内存后,会将程序计数器(CPU寄存器的一种)设定为0100,然后程序便开始运行。CPU每执行一个指令,程序计数器的值就会自动加1。例如,CPU执行0100地址的指令后,程序计数器的值就变成了0101(当执行的指令占据多个内存地址时,增加与指令长度相应的数值)。然后,CPU的控制器就会参照程序计数器的数值,从内存中读取命令并执行。也就是说,程序计数器决定着程序的流程。

4.条件分支和循环机制

程序的流程分为顺序执行、条件分支和循环三种。顺序执行是指按照地址内容的顺序执行指令。条件分支是指根据条件执行任意地址的指令。循环是指重复执行同一地址的指令。顺序执行的情况比较简单,每执行一个指令程序计数器的值就自动加1。但若程序中存在条件分支和循环,机器语言的指令就可以将程序计数器的值设定为任意地址(不是+1)。接下来以条件分支为例。

条件分支和循环中使用的跳转指令,会参照当前执行的运算结果来判断是否跳转。表1-1所列出的寄存器中,我们提到了标志寄存器。无论当前累加寄存器的运算结果是负数、零还是正数,标志寄存器都会将其保存(也负责存放溢出$^1$和奇偶校验$^2$的结果)。

  1. 溢出(overflow)是指运算的结果超出了寄存器的长度范围。
  2. 奇偶校验(parity check)是指检查运算结果的值是偶数还是奇数。

CPU在进行运算时,标志寄存器的数值会根据运算结果自动设定。条件分支在跳转指令前会进行比较运算。至于是否执行跳转指令,则由CPU在参考标志寄存器的数值后进行判断。运算结果的正、零、负三种状态由标志寄存器的三个位表示。图1-6是32位CPU(寄存器的长度是32位)的标志寄存器的示例。标志寄存器的第一个字节位、第二个字节位和第三个字节位的值为1时,表示运算结果分别为正数、零和负数。

CPU执行比较的机制很有意思。例如,假设要比较累加寄存器中存储的XXX值和通用寄存器中存储的YYY值,执行比较的指令后,CPU的运算装置就会在内部(暗中)进行XXX-YYY的减法运算。而无论减法运算的结果是正数、零还是负数,都会保存到标志寄存器中。结果为正表示XXX比YYY大,零表示XXX和YYY相等,负表示XXX比YYY小。程序中的比较指令,就是在CPU内部做减法运算。

5.函数的调用机制

函数调用处理也是通过把程序计数器的值设定成函数的存储地址来实现的。不过,这和条件分支、循环的机制有所不同,因为单纯的跳转指令无法实现函数的调用。函数的调用需要在完成函数内部的处理后,处理流程再返回到函数调用点(函数调用指令的下一个地址)。因此,如果只是跳转到函数的入口地址,处理流程就不知道应该返回至哪里了。

图1-7是给变量a和b分别代入123和456后,将其赋值给参数来调用MyFunc函数的C语言程序。图中的地址是将C语言编译成机器语言后运行时的地址。由于1行C语言程序在编译后通常会变成多行的机器语言,所以图中的地址是离散的。

函数调用使用的是call指令,而不是跳转指令。在将函数的入口地址设定到程序计数器之前,call指令会把调用函数后要执行的指令地址存储在名为栈的主存内。函数处理完毕后,再通过函数的出口来执行return命令。return命令的功能是把保存在栈中的地址设定到程序计数器中。如图1-7所示,MyFunc函数被调用之前,0154地址保存在栈中。MyFunc函数的处理完毕后,栈中的0154地址就会被读取出来,然后再被设定到程序计数器中(图1-8)。

在编译高级编程语言的程序后,函数调用的处理会转换成call指令,函数结束的处理则会转换成return指令。

6.通过地址和索引实现数组

接下来看一下基址寄存器变址寄存器的作用。

首先,我们用十六进制数$^1$将计算机内存上00000000~FFFFFFFF的地址划分出来。那么,凡是该范围的内存区域,只要有一个32位的寄存器,即可查看全部的内存地址。但如果想要像数组那样分割特定的内存区域以达到连续查看的目的,使用两个寄存器会更方便些。例如,查看10000000地址~1000FFFF地址时,如图1-9所示,可以将10000000存入基址寄存器,并使变址寄存器的值在00000000~0000FFFF变化。CPU则会把基址寄存器+变址寄存器的值解释为实际查看的内存地址。变址寄存器的值就相当于高级编程语言程序中数组的索引功能。

  1. 二进制数的4位(0000~1111)就可以用十六进制数的1位(0~F)来表示。32位的二进制数,就可以用8位的十六进制数来表示。

7.CPU的处理其实很简单

接下来我们就来看一下机器语言到底有哪些种类。表1-2按照功能对CPU能执行的机器语言指令进行了大体分类。这里没有列出指令的具体名称(汇编语言的助记符)。其实CPU可以进行的处理非常少。

8.参考资料

  1. 图解寄存器与内存
  2. 寄存器和内存的区别