复习总目录
5. 流水和指令级高度并行的超级机
5.1 重叠方式
(1)标量处理机的重叠方式中二次相关的是指令 k \mathbf{k} k 与指令 k + 2 \mathbf{k+2} k+2 存在先写后读相关。(p154)
一次、二次指的是相关指令相隔的指令条数;写写相关指的是两条指令都要往同一个单元写入内容。
5.2 流水方式
(1)流水的分类(p157)
① 依据向下扩展和向上扩展的思路,可分为计算机功能子过程的流水线和多个处理机之间的流水线。
② 流水按处理的级别可分为部件级、处理机级和系统级。
部件级:构成部件内各个子部件间的流水;
处理机级:构成处理机的各部件之间的流水;
系统级:构成计算机系统的多个处理机之间的流水。
③ 从流水具有功能的多少,可分为单功能流水线和多功能流水线。
单功能流水:只能实现单一功能的流水,要完成多功能的流水将多个单功能流水组合。
多功能流水:同一流水线的各个段之间可以有多种不同的连接方式,以实现不同的功能。
按多功能流水线的各段能否允许同时用于多种不同功能连接流水,可把流水线分为静态流水线和动态流水线。
静态流水线在某一段时间内各段只能按一种功能连接流水。
④ 从计算机所具有的数据表示,分为标量流水机和向量流水机。
⑤ 从流水线中各功能段之间是否有反馈回路,分为线性流水和非线性流水。
(2)总结 IBM360/91 解决流水控制的一般方法、途径和特点。(课后习题 5-10,简答题)
采用流水控制的方法是总线式分布处理。
途径:
① 在各个寄存器中设置忙位标志来判断是否相关。当寄存器正在使用时,置该寄存器的忙位标志为 “1”;当寄存器被释放,其忙位标志清为 “0”。因此,访问寄存器时,先看忙位标志,如为 “1”, 表示相关。
② 设置多条流水线,让它们并行地工作,同时在分布于各流水线的入、出端上分别设置若干个保存站来缓冲存放信息。一旦相关后,采用异步方式流动。
③ 通过分布设置的站号来控制相关专用通路的连接。
④ 相关专用通路采用总线方式,相关后通过更改站号来实现不同相关专用通路的连接。
特点:
① 不必对进入流水线各条指令的源操作数地址和目的操作数地址做两两配对的比较,就可判知是否发生了相关。所以,相关判断的控制大大简化。
② 对于异步流动的先写后读、先读后写以及写写三类相关都能很方便且不加区分地予以解决。
③ 相关专用通路采用总线方式,使该通路可以为各种相关所共用,大大简化了硬件。
④ 多条流水线采取异步并行,且多条相关的指令可以一直链接下去,使系统有高的性能
(3)流水线机器全局性相关的概念及处理全局性相关的四种方法。(p169,简答题)
全局性相关指的是已进入流水线的转移指令和其后续指令之间相关。
处理全局性相关的四种方法有:猜测法、加快和提前形成条件码、采取延迟转移、加快短循环程序的处理。
(4)全局相关处理中,采用猜测法猜错后保证恢复分支点原先现场的方法。(p170,简答题)
方法一,采取对指令只译码和准备操作数,在转移条件码出现之前不进行运算;
方法二,让指令运算完但不送回运算结果,只要猜对分支可送回运算结果;
方法三,采用后援寄存器把可能被破坏的原始状态保存起来,一旦猜错,就取出后援寄存器中的内容来恢复分支点的现场。
(5)流水机器的中断处理(p171)
流水机器 IBM 360 / 91 对指令中断的处理方法是不精确断点法。
5.3 向量的流水处理与向量流水处理机
(1)CRAY - 1 向量处理的一个显著特点是只要不出现功能部件使用冲突和源向量寄存器使用冲突,通过链接机构可使有数据相关的向量指令仍能大部分时间并行执行。
5.4 指令级高度并行的超级处理机
(1)超标量处理机与超流水处理机的区别。(p188,简答题)
① 超标量处理机 是利用资源重复,设置多个执行部件寄存器堆端口;
② 超流水处理机 是着重开发时间并行,在公共的硬件上采用较短的时钟周期,深度流水来提高速度,需使用高速的时钟机制来实现。
(2)超标量超流水线处理机是 超标量流水线 和 超流水线 处理机的结合。(p188)
6. 阵列处理机
6.1 阵列处理机的原理
(1)阵列处理机的构形主要有采用 分布式 存储器阵列构形和采用 集中式共享 存储器阵列构形。(p193)
(2)阵列处理机与流水线处理机的区别。(p195,简答题)
① 阵列处理机利用的是资源重复,流水线处理机利用的是时间重叠;
② 阵列处理机利用的是并行性中的同时性,流水线处理机利用的是并行性中的并发性;
③ 阵列处理机使用简单、规整的互连网络来确定处理单元之间的连接,流水线处理机的功能部件一般比较固定。
6.2 SIMD 计算机的互连网络
(1)在SIMD 系统的互连网络的设计目标中,为了降低成本,要求 结构 不要过分复杂;为满足算法和应用的需要,要求 互连 要灵活。(p201)
(2)ILLICA Ⅳ 阵列处理机中,PE 之间所用的互连函数是 P M 2 ± 0 \mathbf{PM2_{\pm 0}} PM2±0 和 P M 2 ± 3 \mathbf{PM2_{\pm 3}} PM2±3。(p203)
(3)混洗交换单级网络,最远的两个单元建立连接需要 n − 1 n-1 n−1 次混洗和 n n n 次交换。(p205)
理解:以 n = 3 n=3 n=3 为例,先用混洗互连函数可以得到虚线部分连线,因为这样不足以让全 0 和全 1 的处理单元和其他的连接,添加了 C u b e 0 \mathrm{Cube_0} Cube0 交换函数,也就是实线部分。让 0 和 7 连接需要经过 0 → 1 → 2 → 3 → 6 → 7 0\to 1\to 2\to 3\to 6\to 7 0→1→2→3→6→7,2 次混洗,3 次交换。
(4)多级立方体网络对各个交换开关的控制方式。(p205,简答题)
级控制:同一级的所有开关只用一个控制信号控制,同时只能处于同一种状态;
单元控制:每一个开关都由自己独立的控制信号控制,可各自处于不同的状态;
部分级控制:第 i 级的所有开关分别用 i + 1 i+1 i+1 个信号控制,其中 0 ≤ i ≤ n − 1 0\le i\le n-1 0≤i≤n−1, n n n 为级数。
(5)实现全排列网络的两种方法。(p213,简答题)
① 在多级互连网络的输出端设置锁存器,使数据在时间上顺序通行两次;
② 将 l o g 2 N \mathrm{log_2}N log2N 级的互连网络和它的逆网络连在一起,省去中间完全重复的一级,得到总级数为 2 l o g 2 N − 1 \mathrm{2log_2}N-1 2log2N−1的全排列网络。
6.3 共享主存构形阵列处理机中并行存储器的无冲突访问
6.4 脉动阵列处理机
(1)脉动阵列结构的特点。(p218,简答题)
① 结构简单、规整,模块化强,可扩充性好,非常适合用超大规模集成电路实现。
② 处理单元 (PE) 间数据通信距离短、规则,使数据流和控制流的设计、同步控制等均简单规整。
③ 脉动阵列中所有 PE 能同时运算,具有极高的计算并行性,可通过流水获得很高的运算效率和吞吐率。
④ 脉动阵列结构的构形与特定计算任务和算法密切相关,具有某种专用性。
7. 多处理机
7.1 多处理机的概念、问题和硬件结构
(1)多处理机的概念(p223,简答题)
多处理机是指有两台以上的处理机,共享 I/O 子系统,机间经共享主存或高速通信网络通信,在统一操作系统控制下,协同求解大而复杂问题的计算机系统。
(2)设计多处理机的目的。(p223,简答题)
① 通过多台处理机对多个作业、任务进行并行执行来提高解题速度,从而提高系统的整体性能;
② 使用冗余的多个处理机通过重新组织来提高系统的可靠性、适应性和可用性。
(3)由于应用的目的和结构不同,多处理机有 同构型、异构型 和 分布型 三种。(p223)
(4)多处理机与阵列处理机在指令流和并行等级的区别。(p223,简答题)
阵列处理机:单指令流多数据流,主要针对向量、数组处理,实现向量指令操作级的并行,是开发并行性的同时性;
多处理机:多指令流多数据流,实现的是更高一级的作业或任务间的并行,是开发并行性的并发性。
(5)多处理机有紧耦合和松耦合两种不同的构形。(p224,简答题)
(6)松耦合多处理机中,每台处理机都有一个容量较大的 局部存储器,用于存储经常用的指令和数据,以减少紧耦合系统中存在的 访主存 冲突。(p226)
(7)采用分布式结构的多处理机机间互连形式为开关枢纽结构。(p232)
7.2 紧耦合多处理机多 Cache 的一致性问题
(1)紧耦合多处理机中解决多 Cache 一致性的办法。(p236~237,简答题)
① 解决进程迁移引起的多 Cache 不一致性,可以通过禁止进程迁移的方法予以解决,也可以在进程挂起时,靠硬件方法将 Cache 中该进程改写过的信息块 强制写回主存相应位置。
② 以硬件为基础实现多 Cache 的一致性,主要有监视 Cache 协议法,即各个处理机中的 Cache 控制器随时都在监视着其他 Cache 的行动。另一种是目录表法,建立一个目录表,记录每一个数据块的使用情况。
③ 以软件为基础实现多 Cache 的一致性,例如依靠编译程序的分析,不把一些公用的可写数据存入 Cache 中。
7.3 多处理机的并行性和性能
(1)多处理机程序并行性(p240~242)
① “先写后读” 数据相关:不能并行执行,特殊情况可以交换串行
② “先读后写” 数据反相关:不能交换串行,硬件上保证对相关单元先读后写次序就可以并行
③ “写写” 数据输出相关:不能交换串行,保证先写后写顺序就能并行
④ 同时 “先写后读” 和 “先读后写” 两种相关:必须并行执行,不能顺序串行也不能交换串行。
理解:
“先写后读” 如:A=B+D; C=A*E
第二步的输入用到第一步的输出,能交换串行的特殊情况是 A=2*A; A=3*A
“先读后写” 如:C=A+E; A=B*D
第二步会输出第一步的输入
“写写” 如:A=B+D; A=C+E
两步的输出相同
同时 “先写后读” 和 “先读后写” 如:A=B; B=A
交换数据
交换就是两步计算交换顺序,串行就是顺序执行
(2)多处理机任务粒度(p247)
任务粒度过小,辅助开销大,系统效率低;
任务粒度过大,并行度低,性能不会很高。
处理机之间通信较少的应用程序宜用 细粒度 处理,要求冗长计算才能得到结果的题目宜用 粗粒度 处理。
7.4 多处理机的操作系统
(1)多处理机操作系统有 3 种类型: 主从型、各自独立型 和 浮动型。(p248)
7.5 多处理机的发展
(1)对称多处理机的各个处理器的地位是均等的,可以同等地访问 共享存储器、I/O 设备和运行操作系统。(p250)
8. 数据流机和归约机
(1)传统的 Von Neumann 型计算机采用控制驱动方式;非 Von Neumann 型计算机包括使用数据流语言,基于数据驱动的数据流计算机;使用函数语言,基于需求驱动的归约机。(p256)
8.1 数据流计算机
(1)数据流计算机中的数据驱动的策略是 滞后求值。(p258)
(2)根据对 数据令牌 处理的方式不同,数据流计算机可以划分为 静态 和 动态 两种类型。(p263)
(3)数据流机器存在的问题。(p264)
① 数据流机主要目的是为了提高操作级并行的开发水平,但如果题目本身数据相关性很强,内涵并行性成分不多时,就会使效率反而比传统的 Von Neumann 型机的还要低。
② 在数据流机器中为给数据建立、识别、处理标记,需要花费较多的辅助开销和较大的存储空间。
③ 数据流机不保存数组。对标量运算有利,而对数组、递归及其他高级操作比较难管理。
④ 数据流语言的变量代表数值而不是存储单元位置,使程序员无法控制存储分配。为有效回收不用的存储单元,增大了编译程序的难度。
⑤ 数据流机互连网络设计困难,输入 / 输出系统仍不够完善。
⑥ 数据流机没有程序计数器,给诊断和维护带来了困难。
8.2 归约机
(1)归约机结构的特点。(p265,简答题)
① 归约机应当是面向函数式语言,或以函数式语言为机器语言的非 Neumann 型机器;
② 具有大容量物理存储器并采用大虚存容量的虚拟存储器,具备高效的动态存储分配和管理的软、硬件支持;
③ 处理部分应当是一种有多个处理器或多个处理机并行的结构形式;
④ 采用适合于函数式程序运行的多处理器 (机) 互连的结构,最好采用树形方式的互连结构或多层次复合的互连结构形式;
⑤ 尽量把运行进程的结点机安排成紧靠该进程所需用的数据,并使运行时需相互通信的进程所占用的处理机也靠近,让各处理机的负荷平衡。
(2)根据机器内部对函数表达式所用存储方式的不同,将归约方式分成 串归约 和 图归约 两类。(p265)
文章评论