北邮大三计算机体系结构实验三DLX管理解决方法器程序设计

合集下载

计算机系统结构实验报告

计算机系统结构实验报告实验目的：掌握计算机系统的基本结构和工作原理，了解计算机系统的组成部分及其相互关系。

实验仪器和材料：计算机硬件设备（主机、硬盘、内存、显卡等）、操作系统、实验指导书、实验报告模板。

实验原理：实验步骤：1.搭建计算机硬件设备，将主机、硬盘、内存、显卡等组装连接好。

2. 安装操作系统，如Windows、Linux等。

3.启动计算机，进入操作系统界面。

4.打开任务管理器，查看CPU的使用情况。

5.打开任务管理器，查看内存的使用情况。

6.运行一些应用程序，观察CPU和内存的使用情况。

7.尝试使用输入输出设备，如键盘、鼠标等。

实验结果：通过实验，我们可以观察到计算机系统的硬件部分和软件部分的工作情况。

通过任务管理器，我们可以查看到CPU的使用情况和内存的使用情况。

在运行应用程序时，我们可以观察到CPU和内存的使用情况的变化。

通过使用输入输出设备，我们可以与计算机进行交互操作。

实验分析：从实验结果可以看出，计算机系统的硬件部分和软件部分都是相互关联的。

CPU作为计算机的核心部件，负责执行各种指令，通过数据传输和计算来完成各种操作。

而内存则用于存储数据和程序，通过读写操作来完成对数据的处理。

硬盘则用于长期存储数据。

操作系统则是计算机系统的管理者，通过调度CPU和内存的使用来实现对计算机资源的分配。

结论：计算机系统是由硬件和软件部分组成的，其中硬件部分包括CPU、内存、硬盘等，软件部分包括操作系统、应用程序等。

计算机系统通过CPU 的运算和数据传输来实现各种操作。

通过实验，我们可以观察到计算机系统的工作情况，并深入了解计算机系统的组成和工作原理。

实验总结：通过本次实验，我们对计算机系统的基本结构和工作原理有了更深入的了解。

实验中，我们搭建了计算机硬件设备，安装了操作系统，并通过观察和分析实验结果，进一步认识到计算机系统的组成部分和各部分之间的相互关系。

通过操作输入输出设备，我们还实践了与计算机进行交互操作的过程。

计算机体系结构实验

gtd f2,f10 ;f2>1?
bfpf InputArray1;若不大于1,跳到InputArray1,此时r9为10的n次方
mult r9,r7,r9
subi r2,r2,1
j Loop1 ; Loop1用来求出10的n次方(n为输入的位数),n随后面的循环逐渐减1
InputArray1:
div r11,r5,r9
2、程序中出现数据相关因为下面两条指令，第二条指令要读r1而执行到此操作时第一条指令仍对r1进行操作
lw r4,PrintfValue(r3)
sw Printf,r4
图4.数据相关
程序中出现控制相关，当程序执行下面指令时，第二条指令出现跳转指令时，第一条指令还没有执行完，所以出现控制相关
subi r2,r2,1
add r2,r8,r0 ;将r8中的数值放到r2寄存器中
addi r9,r0,1 ;r9置1;
j Loop1 ;跳转Loop1
Output: ;输出结果
lw r4,PrintfValue(r3)
sw Printf,r4 ;将寄存器r4中的内容存Printf地址单元中
addi r14,r0,PrintPar ;将要输出的数据格式输到寄存器r14中
点击zui3.s
点击select按钮
点击input.s
点击select按钮
点击load按钮
3、按F7键程序顺序执行观察6个子窗口的情况。
七、实验数据及结果分析：
1、先装入zui3.s再转入input.s时，因为程序顺序执行，地址顺序符合程序执行顺序，程序能够正确执行；顺序相反时，因为input.s的地址高，而程序顺序执行到input.s时将没有正确的输入窗口，程序执行到输出结果时，也不会出现结果

计算机系统(体系)结构实验指导书

计算机系统（体系）结构实验指导书内容简介计算机体系结构是计算机专业学生的一门专业课程，本课程是计算机专业一门重要的专业课，着重讲述计算机系统的软、硬件界面。

对于学生从事计算机系统的研制、使用和维护有重要意义。

本课程概念多、内容涉及面广、系统性强。

通过本课程的学习，学生应能从软件、硬件功能分配的角度去了解、分析和研究计算机系统，建立起对计算机系统的全面认识，树立全面地、发展地看问题的观点，从而加深对各种类型体系结构的了解，牢固地树立起整机系统的概念。

本课程的学习应注重理论与实践相结合，因此实验教学是教学环节中必不可少的重要内容。

通过实验教学的学习，使学生熟练掌握有关计算机体系结构的基本概念、基本原理和基本思想，掌握对计算机体系结构和组成进行分析和计算的方法。

实验部分包括四个实验，包括有完整的源程序例题，介绍了一些设计数据结构题目所需的的知识和技巧。

在实验题中，既有简单容易的验证题，即验证已经给出的源程序，或者扩充已经给出的源程序，也有需独立思考设计的综合实验题。

中南大学信息科学与工程学院余腊生制定上机实验要求及规范计算机体系结构课程具有比较强的理论性，同时也具有较强的可应用性和实践性。

上机实验是一个重要的教学环节。

一般情况下学生能够重视实验环节，对于编写程序上机练习具有一定的积极性。

但是容易忽略实验的总结，忽略实验报告的撰写。

对于一名大学生必须严格训练分析总结能力、书面表达能力。

需要逐步培养书写科学实验报告以及科技论文的能力。

拿到一个题目，一般不要急于编程。

按照面向过程的程序设计思路（关于面向对象的训练将在其它后继课程中进行），正确的方法是：首先理解问题，明确给定的条件和要求解决的问题，然后按照自顶向下，逐步求精，分而治之的策略，逐一地解决子问题。

一、实验报告的基本要求：一般性、较小规模的上机实验题，必须遵循下列要求。

养成良好的习惯。

姓名班级学号日期题目i. 问题描述ii. 设计简要描述iii. 程序清单（带有必要的注释）iv. 结果分析（原始图示，测试数据与运行记录，分析正确性；）v. 调试报告：实验者必须重视最后这两个环节，否则等同于没有完成实验任务。

北邮大三下计算机系统结构实验报告实验一到五 WINDLX模拟器

北京邮电大学实验报告课程名称计算机系统结构计算机学院 2011211311班薛玥(2011211432)目录实验一 WINDLX模拟器安装及使用 (3).实验准备 (3).实验环境 (4).实验步骤 (5).实验内容及要求 (5).实验过程 (5).实验总结 (11)实验二指令流水线相关性分析 (12).实验目的 (12).实验环境 (12).实验步骤 (12).实验过程 (12).实验总结 (19)实验三DLX处理器程序设计 (20).实验目的 (20).实验环境 (20).实验步骤 (20).实验过程 (20)A.向量加法代码及性能分析 (20)B.双精度浮点加法求和代码及结果分析 (26).实验总结 (31)实验四代码优化 (32).实验目的 (32).实验环境 (32).实验原理 (32).实验步骤 (32).实验过程 (32).实验总结+实习体会 (37)实验五循环展开 (38).实验目的 (38).实验环境 (38).实验原理 (38).实验步骤 (38).实验过程 (38)矩阵乘程序代码清单及注释说明 (38)相关性分析结果 (43)增加浮点运算部件对性能的影响 (43)增加forward部件对性能的影响 (43)转移指令在转移成功和转移不成功时候的流水线开销 (43).实验总结+实习体会+课程建议 (43)实验一 WINDLX模拟器安装及使用·实验准备1.了解DLX的基本结构和原理DLX是一种典型的Load/Store型指令集结构。

它具有一套简单的Load/Store 指令集；它注重指令流水效率；它简化指令的译码；它高效支持编译器。

2.了解DLX中的寄存器DLX中有32个通用寄存器（GPRs），分别将其命名为R0,R1...R31。

每个通用寄存器长度为32位。

另外，DLX中有32个浮点寄存器（FPRs），分别将其命名为F0,F1 (31)3.了解DLX数据类型DLX提供了多种长度的整型数据和浮点数据。

北邮计算机体系结构--实验报告

计算机系统结构实验报告班级： 2011211 学号：姓名： 171. 实验一WINDLX模拟器安装及使用2. 实验二指令流水线相关性分析3. 实验三DLX处理器程序设计4. 实验四代码优化5. 实验五循环展开（选作）实验一WINDLX模拟器安装及使用简要介绍WINDLX模拟器结构和功能此图为初始界面Register窗口显示寄存器中的内容Clock Cycle Diagram子窗口现在双击Clock Cycle Diagram子窗口，它显示DLX流水线的时空图。

Statistics子窗口Pipeline子窗口窗口中用图表形式显示了DLX的五段流水线。

可以看出，DLX执行指令的流水线是一个5段流水线，包括取指段（IF）、译码段（ID）、执行段（EX）、访存段（MEM）和写回段（WB）。

显然，不同指令在执行段的操作是不同的，而且不同操作在该段的延迟也是不同的。

Breakpoint子窗口按F7键以单步方式运行程序，可以清楚的看到每条指令在流水线各个段的具体操作情况，除此之外，DLX模拟器还提供了其他几种运行程序的方式。

单击主窗口中Execute子菜单，可以看到DLX模拟器共提供了4种运行程序的方式，其中Single Cycle（或按F7键）就是单步执行方式；Multiple Cycles（或按F8键）是多步执行方式，选择该方式，会在屏幕上出现一个窗口，询问周期个数，它表示流水线从当前位置继续向前执行的周期个数，输入你需要的值，然后按OK键.Code子窗口里面显示的内容是两个程序（fact.s和input.s）加载到内存中的情况。

最右边显示的是程序fact.s的第一条指令，对照图2.7中fact.s的第一条语句，可以看出，变量Prompt被代替以0x1000，这说明变量Prompt在程序被加载到内存中的实际地址就是0x1000，也即程序的数据区被加载到内存地址0x1000开始的地方，这里“0x”表示十六进制。

北邮实验三 DLX处理器程序设计

北京邮电大学计算机学院《计算机系统结构》课程实验2015年4月实验三DLX处理器程序设计实验类别：综合型实验目的：学习使用DLX汇编语言编程，进一步分析相关现象实验学时：4实验组人数：1/1实验设备环境：DLX汇编语言环境实验原理：掌握向量运算算法和编程方法。

教学要点与学习难点：DLX汇编语言实验内容和要求：自编一段汇编代码，完成两双精度浮点一维向量的加法（或乘除法）运算，并输出结果。

向量长度>=16。

观察程序中出现的数据/控制/结构相关实验步骤：（1）熟悉DLX汇编语言。

（2）编写两双精度浮点一维向量的加法运算程序。

（3）对此程序完成上面实验二中1)、2)、3)、4)方面的分析。

程序代码.data;初始化两个用于相加的一维向量（双精度浮点数），向量长度为20a: .double , , , , , , , , , ,,,,,,,,,,b: .double , , , , , , , , , ,,,,,,,,,,PrintfFormat: .asciiz "The result is\n\n%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t\n\n" .align 2PrintfPar: .word PrintfFormatr: .space 200;r为保存相加结果的向量空间.text.global mainmain:addi r1,r0,0 ;r1计数相加的次数addui r4,r0,8 ;r4为常数8loop: ;循环计算向量相加结果subi r2,r1,20 ;r1=20时，跳转到finishbeqz r2,finishmultu r3,r1,r4 ;r3为当前分量相对于向量基址的偏移(每个分量占8B)ld f0,a(r3) ;取a中第r1个分量ld f2,b(r3) ;取b中第r1个分量addd f4,f0,f2 ;相加结果放在f4中sd r(r3),f4 ;将相加结果放入结果向量r中addi r1,r1,1 ;下一分量j loopfinish: ;输出向量相加的结果addi r14,r0,PrintfPartrap 5trap 0运行结果Statistics可以看到具体数据情况和产生相关的比例等结果分析数据相关由Statistics中的知道，发生了%的数据相关。

计算机组成原理实验(复杂模型机)

2021/6/16
4
实验八复杂模型机的设计与实现
• 实验目的
综合运用所学计算机原理知识，设计并实现较为完整的计算机。
2021/6/16
5
实验八复杂模型机的设计与实现
• 实验原理
1、数据格式
模型机规定采用定点补码表示法表示数据，且字长为8位，其格式如下：
7 6543210
符号
尾
数
其中第7位为符号位，数值表示范围是：－1≤X＜1。
14
实验八复杂模型机的设计与实现
四、实验步骤
⑴ 设计复杂模型机的监控软件，详细如下：
＄P00 44
IN 01, R0
＄P01 46
IN 01, R2
＄P02 98
ADC R2, R0
＄P03 81
MOV R0, R1
＄P04 F5
RLC R1, R1
＄P05 0C
BZC 00, 00
＄P06 00
18
实验八复杂模型机的设计与实现
⑶ 将二进制代码表转换为联机操作时的十六进制格式文件(文件名C8JHE3）。程序：
＄P00 44 ＄P01 46 ＄P02 98 ＄P03 81 ＄P04 F5 ＄P05 0C ＄P06 00
2021/6/16
19
实验八复杂模型机的设计与实现
＄M00 088105 ＄M01 82ED05 ＄M02 50C004 ＄M03 04A004 ＄M04 A0E004 ＄M05 06E004 ＄M06 07A004 ＄M07 A0E004 ＄M08 8AED05 ＄M09 8CED05 ＄M0A 3BA004 ＄M0B 018005 ＄M0C 3C2004 ＄M0D 0EA004

计算机系统结构实验指导书

计算机系统结构实验指导书殷晓峰编著山东大学计算机科学与技术学院2004年3月前言计算机系统结构是计算机科学与技术专业的一门骨干课程，课程中讲授的许多内容诸如：指令流水线、向量计算、流水线的相关、并行计算、定向技术等内容比较抽象，同学们在学习中会有些难度。

为了使理论教学与实践教学紧密结合，注重学生的智力开发和能力培养，为了帮助大家学好这门课程，我们安排了计算机系统结构实验，希望同学们认真完成实验内容，增进对课程内容的理解，提高自己理论联系实际的能力，提高自己独立思考解决问题的能力。

本实验采用了目前在世界上计算机系统结构实验教学过程中广泛采用的WinDLX模拟器，该模拟器把系统结构课程中许多抽象的东西变成实际的、便于同学们理解的内容。

本实验中借鉴和引用了其他学校的经验和内容，在此表示感谢。

山东大学计算机科学与技术学院殷晓峰2004．3目录一．WinDLX简介二．WinDLX寄存器结构及指令集三．WinDLX教程四．实验注意事项及要求五．实验一熟悉WinDLX的使用六．实验二用WinDLX执行程序求最大公约数七．实验三用WinDLX模拟器完成求素数程序八．实验四结构相关九．实验五数据相关十．实验六指令调度十一．实验七多处理机并行计算一．WinDLX 简介1．DLX流水线处理器DLX是贯穿本课程的一个流水线处理器实例，许多讨论、模拟结果和例题都是基于DLX的。

它不仅体现了当今多种机器(AMD29K、DEC station 3100、HP850、IBM 801、Intel i860、MIPS M/120A、MIPS M/1000、Motorola 88k、RISC I,SGI4D/60, SPARC station 1、Sun 4/110、Sun 4/260等)指令集结构的共同特点，而且它还将会体现未来一些机器的指令集结构的特点。

这些机器的指令集结构设计思想都和DLX指令集结构的设计思想十分相似，它们都强调：具有一个简单的Load/Store指令集；注重指令流水效率；简化指令的译码；高效支持编译器。

北邮大三下计算机系统结构代码优化实验报告

课程名称：计算机系统结构实验名称：代码优化实验班级：09211311姓名：schnee学号：日期：2012年4月20日目录1.实验目的 (3)2.实验原理 (3)3.优化程序代码清单及注释说明 (3)4.实验分析 (4)观察程序中出现的数据/结构/控制相关，指出程序中出现上述现象的指令组合。

(4)考察增加浮点运算部件对性能的影响。

(5)考察增加FORWARD部件对性能的影响。

(5)观察转移指令在转移成功和转移不成功时候的流水线开销。

(6)5.实验心得和总结 (6)1.实验目的学习简单编译优化方法，观察采用编译优化方法所带来的性能的提高。

2.实验原理采用静态调度方法重排指令序列，减少相关，优化程序。

3.优化程序代码清单及注释说明1..data2.VectorLength: .word 163.Vector1: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,164.Vector2: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,165.Printf1: .asciiz "Vector ="6.Printf2: .asciiz " %f"7..align 28.PrintPrompt: .word Printf19.PrintPar: . word Printf210.Result: .space 411..text12.main: ;**** Print prompt "Vector ="13.addi r14,r0,PrintPrompt14.trap 515. addi r2,r0,0 ;调换两行代码，;提前写入R2以减少下面语句的相关16.lw r20,VectorLength17.Loop:18.ld f10,Vector1(r2)19.ld f12,Vector2(r2)20.addi r2,r2,4 ;r2地址加4个字节，;相当于寻找下一个元素;将下面的句子1移动到此处21.cvti2d f0,f10 ;把int型改为double D0(f0:f1)22.cvti2d f2,f12 ;把int型改为double D1(f2:f3)23.subi r20,r20,1 ;r20值设为16，此处-1以循环16次;此处是将下面的句子2移动到此处24. addd f4,f2,f0 ;add D2=D0+D1;**** Finish,write result into stdout25.sd Result,f426.addi r14,r0,PrintPar27.trap 528.;addi r2,r2,4 ;句子129.;subi r20,r20,1 ;句子230. bnez r20,Loop;**** End31.trap 04.实验分析这个实验的优化思路在于：1、根据原先实验3中实验分析1）中关于相关性的分析来找出代码中的相关性，2、对其中具有相关性的指令，通过把无关紧要的代码提前或者拖后至相关性语句之间，以此来减少甚至消除数据相关性所造成的stall带来的效率低下。

计算机体系结构实验指导书

《计算机体系结构》实验指导书唐山学院计算科学与技术实验教学中心2011年12月前言：十六位机(FPGA)扩展实验板通过选配的十六位机(FPGA)扩展板，就可以在COP2000计算机组成原理实验仪上做十六位、三十二位模型机的实验。

FPGA扩展板上有：50万门大规模FPGA芯片，学生将设计好的电路下载到芯片上，来完成模型机的功能。

可以根据难易程度，可以先设计8位，再到16位，再到32位逐步完成，灵活多变，开放性好。

学生在设计过程中，能充分理解模型机中各部件，各电路的实现方法，强化学习效果。

64Kx16位存储器，能保存大容量的程序。

12位八段数码管，用于显示模型机内部的寄存器、总线值，学生在设计时，可将需要观察的内部寄存器、总线等值接到这些八段管上，直观地观察模型机运行时内部状态变化。

16位发光管，用于显示模型机内部的状态，例如进位标志、零标志、中断申请标志等等。

四十路开关，用于输入外部信号，例如在做单步实验时，这些开关可用来输入地址总线值、数据总线值、控制信号等。

在COP2000的主界面上，按“打开FPGA扩展板窗口”按钮，打开FPGA扩展板的界面，此窗口有两个页面，“结构图”页面和“存储器”页面。

在“结构图”页面上，显示出与实际FPGA扩展板相同的器件及各器件与FPGA XC3S500E 相连接的管脚号，在实验时，只要将想观察的值从相应的管脚输出，就会在八段数码管或发光二极管上显示出来，注意用八段数码管观察值时，只需直接在管脚上输出数据即可，无需另加译码逻辑电路将数据值译成八段码格式。

需要读入键盘值时，就直接从该键盘相连的管脚读入。

RAM与XC3S500E相连的地址线数据线及读写控制线所对应的管脚也显示在图上，当有存储器读写操作时，各信号所对应的值会在图上显示。

“CLOCK”“INT”状态灯显示单脉冲信号和中断申请信号的状态，在做模型机总体实验时，学生可以在COP2000的主板上按下单脉冲或中断申请按键，键的状态会在此显示。

北邮网校计算机信息系统工程阶段作业

北邮网校计算机信息系统工程阶段作业简介：一、作业内容1.项目需求分析与设计：针对一个实际问题，进行需求分析，设计合适的计算机信息系统解决方案。

2.软硬件配置与管理：根据项目需求，选择适合的计算机硬件设备和软件工具，进行配置和管理，确保系统正常运行。

3.网络规划与管理：根据项目需求，规划网络拓扑结构，选用合适的网络设备，进行网络配置和管理，确保系统稳定、高效地运行。

4.信息安全与风险评估：对计算机信息系统进行安全评估，发现潜在的安全隐患，并制定相应的安全措施，确保系统数据安全。

5.系统维护与优化：对已经建立的系统进行维护和优化，及时处理系统故障，提升系统性能和稳定性。

二、实践意义1.提高实践能力：通过完成作业，学生能够锻炼独立思考和解决问题的能力，培养实际应用计算机知识的能力。

2.加深理论理解：作业内容涉及多个计算机信息系统工程方面，通过实际操作，帮助学生更好地理解相关理论知识。

3.培养团队合作能力：一些作业可能需要多人合作完成，学生需要与他人协作，培养团队合作意识和能力。

4.实际应用与实践经验：作业内容涉及到实际问题的解决，使学生能够将理论知识应用到实践中，积累实践经验。

三、解决问题的方法在完成北邮网校计算机信息系统工程阶段作业时，可以采取以下方法解决问题：1.细心分析：对作业要求进行仔细分析，明确问题的关键点和要求，确保理解问题的核心。

2.查阅资料：根据问题的要求，借助图书馆、互联网等资源，查阅相关资料，获得帮助和灵感。

3.讨论交流：与同学、老师或其他相关人员进行讨论、交流，获得不同的观点和思路。

4.实践操作：根据作业要求，进行实际操作，通过实践来巩固理论知识和解决问题。

5.归纳总结：在完成作业的过程中，及时总结经验，归纳出解决问题的方法和技巧，为以后的学习和工作积累经验。

总结：北邮网校计算机信息系统工程阶段作业的完成是学生综合能力的体现，通过解决实际问题，学生能够获得实践经验和能力提升。

在解决问题的过程中，需要细心分析、查阅资料、讨论交流、实践操作等多种方法相结合，不断提升自己的问题解决能力。

体系结构实验报告哈工程

计算机科学与技术学院《计算机体系结构》课程实验学号：班级：专业：计算机科学与技术学生姓名：2017年5月7日实验报告1、双击WinDLX图标运行WinDLX。

装入测试程序之前，先初始化WinDLX 模拟器：点击File菜单中的Reset all菜单项，弹出一个“Reset DLX”对话框。

然后点击窗口中的“确认”按钮即可。

2、选择File / Load Code or Data，按如下步骤操作，可将distance.s和input.s 这两个程序装入主存：点击distance.s点击select按钮点击input.s点击select按钮点击load按钮3、按F7键程序顺序执行观察6个子窗口的情况。

七、实验数据及结果分析：1、先装入distance.s再转入input.s时，因为程序顺序执行，地址顺序符合程序执行顺序，程序能够正确执行；顺序相反时，因为input.s的地址高，而程序顺序执行到input.s时将没有正确的输入窗口，程序执行到输出结果时，也不会出现结果2、程序中出现三个相关图7-1如图7-1因为下面两条指令，第二条指令要读r4而执行到此操作时第一条指令仍对r4进行操作，发生了数据相关add r4,r0,2div r2,r2,r4图7-2如图7-2 程序中出现了结构相关，硬件资源满足不了指令执行的要求，发生资源冲突时，将产生结构相关。

次程序代码段因加法器发生结构相关。

add r3,r0,r1add r6,r0,0图7-3如图7-3程序中出现控制相关，当程序执行下面指令时，第二条指令出现跳转指令时，第一条指令还没有执行完，所以出现控制相关addi r1,r0,Promptjal InputUnsigned图7-43、.data ;定义数据段，默认情况下数据段$DATA 会被加载到内存0x1000地址处;***prompts for input ;提示输入语句，输入3个初始数据Prompt1: .asciiz "time:" ;时间Prompt2: .asciiz "accelerate speed:";加速度Prompt3: .asciiz "innital speed:" ;初始速度;Data for Printf-TrapPrintfFormat: .asciiz "distance=%d\n" ;输出格式，表示求出的路程按什么格式输出;PrintfFormat1: .asciiz "the result is :%d ,no convention!" .align 2 ;表示下面采用字对齐PrintPar: .word PrintfFormatPrintValue: .space 4.text;第一代码段，默认情况下代码段$CODE会加载到内存0x100地址处.global main ;定义一个全局符号main，即该代码段的首地址main:;***read two positive integer numbers into R1 and R2add r1,r0,Prompt1 ;将输入的数存入寄存器r1jal InputUnsigned ;跳转到InputUnsigned子程序处读取输入的参数，同时将一条指令的地址存与r31中，即r31<-pc+4add r3,r0,r1 ;由InputUnsigned 返回的参数赋r3寄存器，此时r3存储的是时间add r6,r0,0 ;将0赋值给r6sgt r7,r6,r3 ;比较r3 和r6大小bnez r7,error ;r7为1则结束程序add r1,r0,Prompt2 ;将输入的数存入寄存器r1jal InputUnsigned ;同上，跳转到InputUnsigned子程序add r2,r0,r1 ;由InputUnsigned 返回的参数赋r2寄存器，此时r2存储的是加速度add r1,r0,Prompt3 ;将输入的数存入寄存器r1jal InputUnsigned ;同上，跳转到InputUnsigned子程序;r3: time r2:add speed r1:innital speedmult r1,r1,r3 ;时间乘以速度，并将之存入r1中。

北邮大三计算机体系结构实验三DLX处理器程序设计

北邮大三计算机体系结构实验三DLX处理器程序设计DLX处理器是一种精简指令集计算机体系结构，它包含了32个通用寄存器，支持32位指令和数据，以及高度定制化的流水线架构，能够提供高效的指令执行能力。

本文将针对DLX处理器进行程序设计，主要实现一个简单的计算程序。

首先，我们将使用汇编语言来设计DLX处理器的程序。

DLX处理器的指令集采用32位指令，并且按照固定格式进行编码。

在本实验中，我们将实现一个简单的加法程序。

首先，我们需要定义一些常量和变量。

在DLX处理器中，可以使用32个通用寄存器来存储数据和中间结果。

我们可以使用其中的3个寄存器来存储输入数据和输出结果。

```assembly.datainput1: .word 5input2: .word 7result: .word 0```接下来，我们需要编写程序的主体部分。

程序的主体部分包含了一系列的指令，用来执行具体的计算任务。

在本实验中，我们将使用ADD指令来执行加法操作，并将结果存储到result寄存器中。

```assembly.textmain:L.D F0, input1L.D F2, input2ADD.DF4,F0,F2S.D result, F4```在这段代码中，我们首先使用L.D指令将input1中的值加载到浮点寄存器F0中，然后使用L.D指令将input2中的值加载到浮点寄存器F2中。

接着，我们使用ADD.D指令将F0和F2中的值相加，并将结果存储到F4中。

最后，我们使用S.D指令将F4中的值存储到result寄存器中。

最后，我们需要在程序中添加一些必要的指令，用来启动和结束程序的执行。

在DLX处理器中，程序的执行是按照顺序进行的，因此我们只需要添加一些简单的指令即可。

```assemblystart:j mainnop```总结起来，本文针对北邮大三计算机体系结构实验三DLX处理器程序设计，我们使用汇编语言设计了一个简单的加法程序。

北邮计算机系统结构WINDLX模拟器实验报告

实验报告学院: 计算机学院课程名称: 计算机系统结构实验名称: WINDLX模拟器实验班级:姓名:学号:实验一 WINDLX模拟器安装及使用略实验二指令流水线相关性分析一．实验类别验证实验二．实验目的通过使用WINDLX模拟器,对程序中的三种相关现象进行观察,并对使用专用通路,增加运算部件等技术对性能的影响进行考察,加深对流水线与RISC处理器的特点的理解。

三．实验环境Windows XP操作系统WinDLX模拟器四．实验原理指令流水线中主要有结构相关、数据相关、控制相关。

北理工计算机体系结构习题解答

精选课件
33
第2章指令系统
3、只有两种码长的扩展操作码编码使用频度高的用短代码表示。根据 Huffman 编码和指令使用频度，可以设计出具有3位和6位码长的操作码。操作码编码如下：
精选课件
34
第2章指令系统
编码
000 001 010 011 100 101 110
精选课件
17
1-9 如果某一计算任务用向量方式求解比用标量方式求解要快20倍，称可用向量方式求解部分所花费时间占总的百分比为可向量化百分比。请写出加速比与可向量化比例两者的关系曲线。
解：
S
1
20
(1F)F/20 2019F
精选课件
18
在习题1-9中，为达到加速比2，可向量化的百分比应为多少?
(6)可以。数据通路宽度是计算机组成的内容。
精选课件
16
第1章基础知识
(7)可以。单总线改为多总线是计算机组成的内容。
(8)不可以。通用寄存器的使用是属于计算机系统结构的内容。0号通用寄存器改为堆栈指示器，将使原先程序中0 号寄存器中的内容改变直接影响到堆栈指针的位置发生变化，造成程序无法正常工作。
精选课件
6
第1章基础知识
仿真
用一种机器(A)的微程序直接解释实现另一种机器 ( B) 的指令系统，从而实现软件移植的方法
被仿真的机器称为目标机，进行仿真的机器称为宿主机，解释微程序机器称为仿真微程序
精选课件
7
第1章基础知识
并行性
指可以同时进行运算或操作的特性，它有两重含义：
计算机体系结构
习题解答
精选课件

北邮大三计算机体系结构实验一 WINDLX模拟器安装及使用

实验一WINDLX模拟器安装及使用实验内容：WINDLX模拟器结构和功能：1、Register窗口Register窗口显示寄存器中的内容。

2、code窗口窗口显示的信息是存储器内容，分别是：地址(符号或数字)、命令的十六进制机器代码和汇编命令。

点击Execution中的Single Cycle单步执行，每点击一次执行一步，依次执行IF，ID，intEX，MEM，WB，每执行一步通过颜色的变化来标识命令处于流水线的哪一段。

点击Execution中的Multiple Cycles可以选择执行多步。

3、Pipeline窗口Pipeline窗口显示DLX处理器的内部结构。

窗口中用图表形式显示了DLX的五段流水线，处于不同流水段的指令都能够在图表中显示。

点击Execution中的Single Cycle或Multiple Cycles执行可以看到哪个流水段执行的是哪一条指令。

4、Clock Cycle Diagram窗口Clock Cycle Diagram窗口显示流水线的时空图，该时空图中显示了每一个时隙内的运行情况。

双击流水线时空图的某一行会详细显示对应行流水段处理器内部的执行动作。

5、Statistics窗口Statistics窗口是对运行程序中数据的分析主要包括模拟中硬件配置情况、暂停及原因、条件分支、Load/Store指令、浮点指令和traps以及事件发生的次数和百分比。

在静态窗口中我们可以比较一下不同配置对模拟的影响。

6、Breakpoint 窗口Breakpoint窗口用来观察代码运行的情况。

Set Breakpoint窗口，可以选择命令运行到流水线的哪一阶段时，程序停止执行。

在Code 窗口中，相应行上会出现"BID" ，它表示当本指令在译码段时，程序中止执行。

大三大四必修课计算机系统结构教案

大三大四必修课计算机系统结构教案一、教学目标通过本课程的学习，使学生掌握计算机系统结构的基本概念和原理，了解计算机硬件与软件之间的关系，能够分析和设计计算机系统，具备一定的计算机系统结构实践能力。

二、教学内容1. 计算机系统结构基础知识a. 计算机层次结构：硬件层次、软件层次b. 计算机系统组成：中央处理器、存储器、输入输出设备c. 计算机系统的工作原理2. 计算机指令系统a. 指令格式与寻址方式b. 指令执行的过程c. 程序的运行与调用3. 计算机硬件组成a. 中央处理器的结构和功能b. 存储器层次结构与缓存技术c. 输入输出设备的种类和接口4. 性能评测与优化a. 计算机系统性能指标b. 硬件设计与优化c. 软件设计与优化三、教学方法1. 授课法采用讲解与演示相结合的方式进行教学，以提高学生对知识的理解和运用能力。

2. 实践教学利用计算机系统仿真软件进行实践操作，帮助学生加深对计算机系统结构的理解。

3. 讨论与案例分析开展小组讨论和案例分析，引导学生探讨计算机系统设计和优化的问题，培养学生解决实际问题的能力。

四、教学评估1. 课堂测验每个章节结束后进行小型测验，了解学生对基本概念和原理的掌握程度。

2. 课程设计学生按照教师要求进行课程设计，包括计算机系统的分析、设计和优化，通过评审和答辩评估学生的综合能力。

3. 平时表现考察学生的课堂参与、实践操作和讨论表现，评价学生的学习态度和能力提升情况。

五、教材及参考资料主教材：《计算机组成与设计硬件/软件接口》参考资料：- 《计算机体系结构：量化研究方法》- 《现代计算机体系结构》- 《深入理解计算机系统》六、教学进度安排第一周：引言- 计算机系统结构的概述- 教学目标和内容的介绍第二周：计算机层次结构- 计算机硬件层次与软件层次的关系- von Neumann计算机模型第三周：指令系统- 指令的格式与寻址方式- 指令的执行过程和程序的运行与调用第四周：中央处理器- CPU的组成和功能- 控制单元和算术逻辑单元第五周：存储器层次结构与缓存技术- 存储器的种类与特点- 缓存技术的原理和应用第六周：输入输出设备- 输入输出设备的种类和接口- I/O控制方式与数据传输方式第七周：计算机系统性能评测- 计算机系统性能指标的定义- 性能评测的方法和工具第八周：硬件设计与优化- 流水线技术与乱序执行技术- 硬件设计与性能优化策略第九周：软件设计与优化- 编译器优化和代码优化技术- 并行计算与多线程编程第十周：课程总结与案例分析- 计算机系统结构的发展与趋势- 案例分析：经典计算机系统结构的研究与实践七、教学实施计划- 每周两次理论课，时间为1.5小时/次- 每周安排1-2次实验课，时间为2小时/次- 每周安排1-2次讨论课，时间为1小时/次以上为《大三大四必修课计算机系统结构教案》的内容安排，通过本教案的实施，将全面提升学生对计算机系统结构的理解和应用能力，为他们未来的学习和工作奠定坚实基础。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验三DLX处理器程序设计
1.实验目的
学习简单编译优化方法，观察采用编译优化方法所带来的性能的提高。

2.实验原理
采用静态调度方法重排指令序列，减少相关，优化程序。

3、实验内容和要求
自编一段汇编代码，完成一维向量加法运算，并输出结果。

观察程序中出现的数据/控制/结构相关。

（注：使用一维数组表示一维向量。

）
4．1向量加法代码清单及注释说明
1、向量加法设计源代码
.data
VectorLength: .word 16
Vector1: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
Vector2: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16 ；声明向量长度以及声明向量1、2 Printf1: .asciiz "Vector ="
Printf2: .asciiz " %f"
.align 2
PrintPrompt: .word Printf1
PrintPar: .word Printf2
Result: .space 4 ；存放打印数据的空间申请
.text
main:
addi r14,r0,PrintPrompt
trap 5
lw r20,VectorLength
addi r2,r0,0
Loop:
ld f10,Vector1(r2)
ld f12,Vector2(r2) ；循环体中读入向量
cvti2d f0,f10
cvti2d f2,f12
addd f4,f2,f0 ；加法运算
Finish:;**** Finish,write result into stdout
sd Result,f4
addi r14,r0,PrintPar
trap 5 ；系统中断，输出结果
addi r2,r2,4
subi r20,r20,1
bnez r20,Loop
;**** End
trap 0
2、运行结果
5．1程序相关性分析结果
（1）观察程序中出现的数据/控制/结构相关。

指出程序中出现上述现象的指令组合。

产生34.12%的数据相关。

当对当前指令的操作数寄存器进行操作的时候，前几条指令的运算结果还未写回结果寄存器，由此产生数据相关。

没有产生结构相关。

产生3.94%的控制相关。

系统按照预测成功来执行指令，执行一条指令后马上将其下一条指令trap读进来。

（2）考察增加浮点运算部件对性能的影响。

1个浮点运算部件3个浮点运算部件
同一段代码执行相同步，但是经过对比发现浮点运算部件的多少对于程序执行效率并没有什么影响，浮点运算部件的多少对统计结果都不造成影响，可能是由于该程序不存在争用浮点运算部件资源的情况
（3）考察增加forward 部件对性能的影响。

不使用forward 部件使用forward 部件
使用forward 部件之后执行相同的代码用的时钟周期比不使用forward 部件少了大约100个时钟周期，由于没有结构相关，所以使用forward 部件主要使得RAW 相关明显减少了，占总的时钟周期比例也减少了，对控制相关没有什么影响。

总之，使用forward 部件后，总的时钟周期减少，数据相关减少，流水线的性能得到很大的改善。

（4）观察转移指令在转移成功和转移不成功时候的流水线开销。

在本次实验中转移成功的几率比较大，进行16次转移只有一次转移不成功的，因为系统按照预测成功来执行指令，当判断转移不成功时，系统对trap 指令进行的操作被全部作废，转而去执行跳转到的指令。

4．2双精度浮点加法求和代码清单及注释说明
1、双精度浮点加法求和源代码
.data
;初始化两个用于相加的一维向量（双精度浮点数），向量长度为20
a: .double 1.9, 2.1, 3.7, 4.6, 5.5, 6.4, 7.3, 8.2, 9.1, 10.1, 11.2,12.3,13.4,14.5,15.6,16.7,17.8,18.9,19.0,20.2
b: .double 1.1, 2.2, 3.3, 4.4, 5.5, 6.6, 7.7, 8.8, 9.8, 10.9, 11.8,12.7,13.6,14.5,15.4,16.3,17.2,18.1,19.9,20.8
PrintfFormat:.asciiz "The result is \n\n%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t\n\n"
.align 2
PrintfPar: .word PrintfFormat
r: .space 200
;r为保存相加结果的向量空间
.text
.global main
main:
addi r1,r0,0 ;r1计数相加的次数
addui r4,r0,8 ;r4为常数8
loop: ;循环计算向量相加结果
subi r2,r1,20 ;r1=20时，跳转到finish
beqz r2,finish
multu r3,r1,r4;r3为当前分量相对于向量基址的偏移(每个分量占8B)
ld f0,a(r3) ;取a中第r1个分量
ld f2,b(r3) ;取b中第r1个分量
addd f4,f0,f2 ;相加结果放在f4中
sd r(r3),f4 ;将相加结果放入结果向量r中
addi r1,r1,1 ;下一分量
j loop
finish: ;输出向量相加的结果
addi r14,r0,PrintfPar
trap 5
2、运行结果：
5．2程序相关性分析结果
（1）观察程序中出现的数据/控制/结构相关。

指出程序中出现上述现象的指令组合。

产生了53.78%的数据相关。

当对当前指令的操作数寄存器进行操作的时候，前几条指令的运算结果还未写回结果寄存器，由此产生数据相关。

产生数据相关的指令主要有：
1) addi r1,r0,0
subi r2,r1,20
2) subi r2,r1,20
beqz r2,finish
3) multu r3,r1,r4
ld f0,a(r3)
4) ld f2,b(r3)
addd f4,f0,f2
无结构相关
产生了4.29%的控制相关。

系统按照预测成功来执行指令，执行一条指令后马上将其下一条指令trap读进来。

和4.1代码类似。

（2）考察增加浮点运算部件对性能的影响。

1个浮点运算部件3个浮点运算部件
同一段代码执行相同步，但是经过对比发现浮点运算部件的多少对于程序执行效率并没有什么影响，浮点运算部件的多少对统计结果都不造成影响，可能是由于该程序函数中没有连续的浮点运算指令。

（3）考察增加forward 部件对性能的影响。

没有forward部件有forward部件
使用forward 部件之后执行相同的代码用的时钟周期比不使用forward 部件少了大约122个时钟周期，使用forward 部件使得RAW 相关明显减少了，流水线的性能得到很大的改善。

（4）观察转移指令在转移成功和转移不成功时候的流水线开销。

该转移指令不成功的情况较多，21次预测中只有1次转移成功，所以预测顺序取对流水线的性能是有利的。

6、实验总结
本次实验主要是向量求和运算，在本次实验我设计了两个部分，首先是整数向量的加法，整数向量加法的实验进行成功后才在之前实验的基础上略作修改，进行了的双精度浮点加法求和的实验。

本次实验没有输入，是直接对固定在代码中的数据进行运算，运算完毕后直接输出结果。

编程中遇到的一些问题：在由整形改为双精度浮点运算的时候对双精度运算指
令不知道怎么来标识，后来查到所有涉及到double型数据的运算指令，指令代码都要加上d来说明，否则编译是不通过的。

通过本次自己编写汇编程序对浮点数的操作有了更深入的了解，也学会了WINDLX中浮点寄存器和浮点状态寄存器的设置和使用。

熟悉了双精度浮点运算的流水线操作过程，以及数据相关，结构相关，控制相关，forward部件对于双精度浮点运算流水线的影响。