系统结构讲义-2
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
码元分配:从树根开始,对每个中间结点的左右2个分支边各赋予
一位代码“0”和“1”(“0”在哪一侧不限)。读出从根结点到任一片树叶 的路径上依次出现的代码位就排成了这个事件(即指令)的完整编码。 由于频度高的事件较晚被合并,它的编码位数也就较少,符合Huffman压 缩原则。
上面所说的频度值就是各事件实际出现次数的百分比, 它是理论出现概率的近似值。 例:假设一台模型计算机共有7种不同的操作码,已 知各种操作码在程序中出现的概率如下表,利用Huffman 编码法进行操作码编码。 指令 概率 I1 0.45 I2 0.30 I3 0.15 I4 0.05 I5 0.03 I6 0.01 I7 0.01
第二章 指令系统
2.3 指令格式的优化设计
指令格式的优化是指如何用最短的二进制位数表示指令的操作码信息和 地址码信息,使指令的平均字长最短,同时便于译码。
指令的组成 操作码 地址码
1) 指令的操作种类。 2) 所用操作数数据 类型。
1) 操作数地址。 2) 地址附加信息。 3) 寻址方式。
指令格式的优化设计目标: 1) 使程序中指令的平均字长最短,节省程序的存储空间。 2) 指令格式要规整,减少硬件译码的复杂程度。
1632和64位固定32位指令时钟频率随技术发展而变化随技术发展而变化寄存器堆824个通用寄存器32192个分离的整数和浮点寄存器堆指令系统规模和类型约300条多于48种指令类型大都基于寄存器寻址方式约12种包含间接变址寻址35种只有取存寻址存储器高速缓存设计较早使用合一高速缓存有些使用分离高速缓存大多数使用分离的数据和指令高速缓存cpi及平均cpi120个周期平均4个简单操作1个周期平均约15个cpu控制大多数用微程序控制有些使用硬连线控制大多数用硬连线控制没有控制存储器代表性商品化处理器intelx86vax8600ibm390mc68040intelpentiumamd486和cyrix686sunultrasparcmipsr10000powerpc604hppa8000digitalalpha21164混合混合ciscriscciscrisc体系结构体系结构pentiumpropentiumpro处理器的处理器的ciscriscciscrisc体系结构体系结构分分基于基于riscrisc核心核心dbab将将x86x86代码转化为代码转化为riscrisc指令指令
编码结果: 指令序号 I1 I2 I3 I4 I5 I6 I7
概率 0.45 0.30 0.15 0.05 0.03 0.01 0.01
编码 000 001 010 011 100 101 110
操作码长度 3位 3位 3位 3位 3位 3位 3位
二、Huffman编码法(最小概率合并法) Huffman压缩概念(最佳编码定理):当用n个长度不等的代码分别
注意:
对于同一个频度分布,应用哈夫曼算法可能生成不同的哈夫曼树, 因此,得到的哈夫曼编码并不唯一,但平均码长唯一。
I1 0.45
I2 0.30
I3 0.15
I4 0.05
I5 0.03
0 0 0 0 1.00 0.55 1 0.25 1
I6 I7 0.01 0.01 0 1 0.02 0 1 0.05 1 0.10 1
Huffman编码树生成过程
编码结果: 指令序号 I1 I2 I3 I4 I5 I6 I7
概率 0.45 0.30 0.15 0.05 0.03 0.01 0.01
Huffman编码法 0 10 110 1110 11110 111110 111111
操作码长度 1位 2位 3位 4位 5位 6位 6位
例:假设一台模型计算机共有7种不同的操作码,已知各 种操作码在程序中出现的概率如下表,利用固定长度编码 法进行操作码编码。 指令 I1 I2 I3 I4 I5 I6 I7
概率
0.45
0.30
0.15
0.05
0.03
0.01
0.01
解:由于N=7 因此,指令操作码固定长度为 [lbN]0.04
0.05
0.08
0.08
0.10
0.15
0. 20
0.25
1
0.05
0
1
0
0.13
0
0.09
1
1
0
0.23
0
1
0.17
0
1
0.43
1
0.32
0 0 1
0.57
0
1
1
0.02
0.03
0.08
0.10
0.20
0.04
0.05
0.08
0.15
0.25
1
0.05
0
1
0
0.09
0
1 0.13 0 1 0.23 1 0.43
操作码编码
0000 0001 …… 1110 1111 1111 …… 1111 1111 1111 …… 1111
说明
4位长度 的操作码 共有15种
操作码编码
0000 0001 …… 0111 1000 1000 …… 1111 1000 1000 …… 1111
说明
4位长度 的操作码 共有8种
1
0
0.17
0
0.32
0
1
0
1 0.57
1
1
0
Ii I1
Pi 0.25
哈夫曼1 10
I1i 2
哈夫曼2 00
I2i 2
I2
I3 I4 I5 I6 I7 I8
0.20
0.15 0.10 0.08 0.08 0.05 0.04
00
110 010 1110 0110 0111 11110
2
3 3 3 4 4 5
10
010 110 0110 1110 01110 01111
2
3 3 4 4 5 5
I9
I10
0.03
0.02
111110
111111
解:采用1-2-3-5扩展编码法操作码平均长度:
H=0.45×1+0.30×2+0.15×3+(0.05+0.03+0.01+0.01)×5 =2.00
1.95 2.5% 信息冗余量: R 1 2.00
采用2-4扩展编码法操作码平均长度:
H=(0.45+0.30+0.15)×2+(0.05+0.03+0.01+0.01)×4 =2.20
等长15/15/15…扩展法
等长8/64/512…扩展法
例:假设一台模型计算机共有7种不同的操作码。已知各种操 作码在程序中出现的概率如下表,如果采用1-2-3-5和2-4扩展 编码法,计算操作码平均长度和信息冗余量。 指令 概率 I1 0.45 I2 0.30 I3 0.15 I4 0.05 I5 0.03 I6 0.01 I7 0.01
编码方法性能指标
信息量:根据信息论的基本知识,在n种可能发生的事件集合中,报告第i
种事件发生的消息中包含的信息量为:
1 I i log a ( ) log a Pi Pi
其中Pi是第i种事件发生的先验概率,a是编码基值。信息量的单位是表 示位数(最少所需位数)。 这个定义式表明事件的发生概率越低,关于它的消息中的信息量越大。
0.01
11110
11111 2.0 2.5%
1110
1111 2.2 11.4%
平均长度 信息冗余量
例:一台处理机有I1-I10共10条指令,经统计,各指令在程序中使用的频率 如下: 指令 I1 I2 0.20 I3 0.15 I4 0.10 I5 0.08 I6 0.08 I7 0.05 I8 0.04 I9 0.03 I10 0.02 概率 0.25
n
n
所以,采用最优Huffman编码法的操作码平均长度为:
0.45×1.152+0.30×1.737+0.15×2.737+0.05×4.322+0.03×5.059+ 0.01×6.644+0.01×6.644=1.95(位)
采用固定长度编码信息冗余量: H 1.97 R 1 1 35% 3 log 2 7
操作码的优化表示
操作码的表示方法: 1) 固定长度操作码。 2) Huffman编码法。 3) 扩展编码法。 一、固定长度操作码 采用等长操作码。 若指令系统共有N种不同功能的指令,则指令系统中的 所有指令的操作码长度固定为[lbN]位。
特点: 1) 长度规整,有利于硬件设计,减少指令译码时间。 2) 信息冗余。
代表n种发生概率不等的事件时,按照短代码给高概率事件、把长代码给 低概率事件的原则分配,可使平均码长达到最低。
Huffman编码方法
这种编码方法由两个过程组成。
频度合并:将全部n个事件(在此即为n条指令)的频度值排序,选
取其中最小的2个频度合并,然后将剩下的n-1个频度再次排序,再合并 最小的2个频度,如此重复,直至剩下1个频度为止。记录所有的合并关 系,形成一棵二叉树 ── Huffman树,所有原始频度值充当树叶,而最后 剩下的总频度1为树根;
信息冗余量:
1.95 R 1 11.4% 2.20
7条指令的操作码扩展编码法 序号 概率 1-2-3-5扩展编码 2-4等长扩展编码
I1
I2 I3 I4 I5
0.45
0.30 0.15 0.05 0.03
0
10 110 11100 11101
00
01 10 1100 1101
I6
I7
0.01
熵(entropy)── 平均信息量:一个消息源对n种事件发布的消息的
信息量平均值,记为:
H ( Pi I i ) Pi log a ( Pi )
i 1 i 1
n
n
平均码长:各事件编码长度的数学期望。
L ( Pi li )
i 1
n
信息冗余量:表明消息编码中“无用成分”所占的百分比。
0000 0001 1110 1111 0000 1111 0001 1111 1110
8位长度 的操作码 共有15种 12位长度 的操作码 共有15种
0000 0001 0111 1000 0000 1000 0001 1111 0111
8位长度 的操作码 共有64种 12位长度 的操作码 共有512种
• 码长表示法:分等长扩展法和不等长扩展法。等长扩展法如4-8-12法, 每次加长4位。但这并不能说明具体编码方法,例如下面两种编码方 法都是4-8-12法。 • 码点表示法:例如15/15/15法,8/64/512法 – 15/15/15法,每一种码长都有4位可编码位(前头可以有相同的扩 展标识前缀),可产生16个码点(即编码组合),但是至多只能 使用其中15个来表示事件,留下1个或多个码点组合作为更长代码 的扩展标识前缀。已经用来表示事件的码点组合不能再作为其它 更长代码的前导部分,否则接收者会混淆。这就是“非前缀原 则”。 – 8/64/512法,每一种码长按4位分段,每一段中至少要留下1位或 多位作为扩展标识。各段剩下的可编码位一起编码,所产生的码 点用来对应被编码事件。每一段中的标识位指出后面还有没有后 续段。
Huffman树生成步骤: 把所有指令按照操作码在程序中出现的概率,自左向右 从排列好。 选取两个概率最小的结点合并成一个概率值是二者之和 的新结点,并把这个新结点与其它还没有合并的结点一 起形成新结点集合。 在新结点集合中选取两个概率最小的结点进行合并,如 此继续进行下去,直至全部结点合并完毕。 最后得到的根结点的概率值为1。 每个结点都有两个分支,分别用一位代码“0” 和“1”表 示。
R LH 100% L
从减少存储与传输量的角度看,编码方法的平均码长越短越 好。但是平均码长不可能无限制缩短,它的下限就是熵(即 R=0时)。如果短于熵就一定会丢失有用信息(即混淆不同指 令),这是不允许的。
例:假设一台模型计算机共有7种不同的操作码,如果采用固 定长操作码需要3位。已知各种操作码在程序中出现的概率如 下表,计算采用Huffman编码法的操作码平均长度,并计算固 定长操作码和Huffman操作码的信息冗余量。 解: Huffman编码结果如: 指令序号 概率 Huffman编码法 操作码长度 I1 0.45 0 1位 I2 0.30 10 2位 I3 0.15 110 3位 I4 0.05 1110 4位 I5 0.03 11110 5位 I6 0.01 111110 6位 I7 0.01 111111 6位
采用Huffman编码法信息冗余量:
1.95 R 1 1.0% 1.97
与3位定长操作码的冗余量35%相比要小得多。 Huffman操作码的主要缺点: 1) 操作码长度很不规整,硬件译码困难 2) 与地址码共同组成固定长的指令比较困难
扩展编码方法(等长扩展法)
由固定长操作码与Huffman编码法相结合形成。
(1)计算这10条指令的操作码编码的最短平均码长。 (2)写出这10条指令的操作码的哈夫曼编码,并计算编码的平均码长和信 息冗余量。 (3)采用3/7扩展编码和2/8扩展编码编写这10条指令的操作码,并分别计 算平均码长和信息冗余量。哪种扩展编码比较好?说明理由。 解: (1)最短平均码长: H=-∑pilog2pi=-(0.25×log20.25+0.20×log20.20+0.15×log20.15+ 0.10×log20.10+0.08×log20.08+0.08×log20.08+0.05×log20.05+ 0.04×log20.04+0.03×log20.03+0.02×log20.02)=2.96(位) (2)两种哈夫曼树
采用Huffman编码法的操作码平均长度:
0.45×1+0.30×2+0.15×3+0.05×4+0.03×5+0.01×6+0.01×6 =1.97(位)
最优Huffman编码法的操作码平均长度计算公式:
H ( Pi I i ) Pi log a ( Pi )
i 1 i 1