第三章_DSP的硬件结构精品PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 这种安排将处理器存贮器的带宽加倍,更重要的是同 时为处理器核提供数据与指令。在这种布局下,DSP 得以实现单周期的MAC指令。
• 还有一个问题,即现在典型的高性能MCU实际上已包 含两个片内高速缓存,一个是数据,一个是指令,它 们直接连接到处理器核,以加快运行时的访问速度。
• 从物理上说,这种片内的双存储器和总线的结构几乎 与哈佛结构的一样了。然而从逻辑上说,两者还是有
4.独立的DMA总线和控制器
通用CPU也有DMA,不是DSP所独有的,但是通用CPU 中DMA要占用CPU的数据总线,这时CPU实际上也就被 挂起来了,CPU也就做不了其它事情了。
而DSP与独立的DMA总线,完全是两个概念。 DSP有一组或多组独立的DMA总线,与CPU的程序、 数据总线并行工作,在不影响CPU工作(不占用CPU总线) 的条件下,DMA速度目前已达800Mbyte/s。 程序运算速度的提高,除了与CPU本身的速率有关,还 与需要数据的供给快慢相关。 比如增加数据的吞吐率,才能匹配硬件乘法器等的工作 速率。 控制器实际是DSP的DMA总线控制用。
5.移位
通用微处理器的移位,每调用一次移位 指令移动1-bit。
DSP可以在一个机器周期内左移或右 移多个bit(速度更快),可以用来对数字 定标,使之放大或缩小,以保证精度和防 止溢出;还可以用来作定点数和浮点数之 间的转换(把指数移出来)。
6.溢出
通用CPU中,溢出发生后(已经发生溢出 了),才设置溢出标志。当不带符号位时回 绕。带符号位时反相,带来很大的误差。
通用微处理器的CPU由ALU和CU组成,其算术运 算和逻辑运算通过软件来实现,如加法需要10个机 器周期,乘法是一系列的移位和加法,需要数十个 机器周期。
DSP由输入定标,硬件乘法器,CALU和ARLU 组成。最主要的是它具有专用的硬件乘法器,乘法 可在一个指令周期内完成,用MAC指令(取数、乘 法、累加)在单周期内完成。
N-3
N-2
完整的流水线
D3N R3 N+E13
N-1
N
F4 D4 R4 E4
独立执行部件: F-取指 D-译码 R-读数 E-执行
第一条指令译码时,第二条指令开始取指。。。。。。并行处理
MCU中采用串行操作,DSP是并行操作
3、专用独立的硬件乘法器
在卷积、数字滤波、FFT、相关、矩阵运算等 算法中,都有 A(k)B(n—k)一类的运算, 大量重复乘法和累加。
重要的区别。
Harvard结构
程序与数据存储空间分开,各有独立的地 址总线和数据总线,取指和读数可以同时进行, 从而提高速度,目前的水平已达到90亿次浮点 运算/秒(9000MFLOPS) MIPS--Million Instruction Per Second MFLOPS--Million Floating Operation Per Second
和表信息从程序存储器传送到CPU。 • (5)DRDB(数据读总线):将数据从数据存储器传送
到中央算术逻辑单元(CALU)和辅助寄存器算术单元 (ARAU)。 • (6)DWEB(数据写总线):将数据写入程序存储器和 数据存储器。
多总线:片内多条数据、地址和控制总线。
存储器结构
• 多数DSP采用了哈佛结构,将存储器空间划分成两个, 分别存储程序和数据。它们有两组总线连接到处理器 核,允许同时对它们进行访问。
第三部分: DSP 硬件结构
DSP的硬件结构
DSP的硬件结构,大体上与通用的微处理 器相类似,由CPU、存储器、总线、外设、接 口、时钟等部分组成,但又有其鲜明的特点。 对比介绍:
一、DSP芯片的鲜明特点
1.哈佛结构 2.流水线操作 3.专用的硬件乘法器
4.独立的DMA总线和控制器 5.移位 6.溢出 7.数据(程序)地址发生器(DAG) 8.等待状态发生器(WSGR)
在DSP中,设置了专门的数据地址发生器 (实际上是专门的ALU),来产生所需要的 数据地址,节省公共ALU的时间。
8.等待状态发生器(WSGR)
对慢速的外部逻辑和存储器接口访问时,通 过等待状态来延迟CPU等待外部存储器或外部 端口的时间以便更好地响应。
9、特殊的DSP指令
• DMOV——延迟操作 • LTD——LT、DMOV、APAC • MACD—— LT、DMOV、
2、流水线操作(pipeline)管道
4级流水线
指令周期
100 101 102B
…
CPUCLK
A取d指d令 F1 N D1 N+R11 EN1+2
N+3
S译u码b
N-1 F2 ND2 RN2+1 E2 N+2
取操作数
Mpy
执行
Store
N-2
NF-13
DSP把移位输出的最高位(MSB)存放 在一个位检测状态寄存器中,检测到 MSB=1时,(还未发生,可能将要发生) 就通知下一次会发生溢出,可以采取措施防 止。
7.数据地址发生器(DAG)
对于运算,数据的吞吐量,供给量快慢 很重要,需要寻找数据地址。
在通用CPU中,数据地址的产生和数据 的处理都由ALU来完成。
采用冯.诺依曼结构的处理器
总线结构
• TMS320C2000器件内部有6条16位总线。 • (1)PAB(程序地址总线):提供读、写程序存储器的
地址。 • (2)DRAB(数据读地址总线):提供读数据存储器的
地址。 • (3)DWAB(数据写地址总线):提供写数据存储器的
地址。 • (4)PRDB(程序读总线):将指令代码、立即操作数
9.特殊的DSP指令
1、改进的哈佛结构
程序/数据 存储器
CPU
冯·诺依曼( Von Neuman )结构
独立IO 空间
数据存 储器
程序存
CPU
储器
改进的哈佛( Harvard )结构
程序与数据存储空间分开,各有独立的 地址总线和数据总线,取指和读数可以同时 进行,从而提高速度,目前的水平已达到 90亿次浮点运算/秒(9000MFLOPS) MIPS--Million Instruction Per Second MFLOPS--Million Floating Operation Per Second
• 还有一个问题,即现在典型的高性能MCU实际上已包 含两个片内高速缓存,一个是数据,一个是指令,它 们直接连接到处理器核,以加快运行时的访问速度。
• 从物理上说,这种片内的双存储器和总线的结构几乎 与哈佛结构的一样了。然而从逻辑上说,两者还是有
4.独立的DMA总线和控制器
通用CPU也有DMA,不是DSP所独有的,但是通用CPU 中DMA要占用CPU的数据总线,这时CPU实际上也就被 挂起来了,CPU也就做不了其它事情了。
而DSP与独立的DMA总线,完全是两个概念。 DSP有一组或多组独立的DMA总线,与CPU的程序、 数据总线并行工作,在不影响CPU工作(不占用CPU总线) 的条件下,DMA速度目前已达800Mbyte/s。 程序运算速度的提高,除了与CPU本身的速率有关,还 与需要数据的供给快慢相关。 比如增加数据的吞吐率,才能匹配硬件乘法器等的工作 速率。 控制器实际是DSP的DMA总线控制用。
5.移位
通用微处理器的移位,每调用一次移位 指令移动1-bit。
DSP可以在一个机器周期内左移或右 移多个bit(速度更快),可以用来对数字 定标,使之放大或缩小,以保证精度和防 止溢出;还可以用来作定点数和浮点数之 间的转换(把指数移出来)。
6.溢出
通用CPU中,溢出发生后(已经发生溢出 了),才设置溢出标志。当不带符号位时回 绕。带符号位时反相,带来很大的误差。
通用微处理器的CPU由ALU和CU组成,其算术运 算和逻辑运算通过软件来实现,如加法需要10个机 器周期,乘法是一系列的移位和加法,需要数十个 机器周期。
DSP由输入定标,硬件乘法器,CALU和ARLU 组成。最主要的是它具有专用的硬件乘法器,乘法 可在一个指令周期内完成,用MAC指令(取数、乘 法、累加)在单周期内完成。
N-3
N-2
完整的流水线
D3N R3 N+E13
N-1
N
F4 D4 R4 E4
独立执行部件: F-取指 D-译码 R-读数 E-执行
第一条指令译码时,第二条指令开始取指。。。。。。并行处理
MCU中采用串行操作,DSP是并行操作
3、专用独立的硬件乘法器
在卷积、数字滤波、FFT、相关、矩阵运算等 算法中,都有 A(k)B(n—k)一类的运算, 大量重复乘法和累加。
重要的区别。
Harvard结构
程序与数据存储空间分开,各有独立的地 址总线和数据总线,取指和读数可以同时进行, 从而提高速度,目前的水平已达到90亿次浮点 运算/秒(9000MFLOPS) MIPS--Million Instruction Per Second MFLOPS--Million Floating Operation Per Second
和表信息从程序存储器传送到CPU。 • (5)DRDB(数据读总线):将数据从数据存储器传送
到中央算术逻辑单元(CALU)和辅助寄存器算术单元 (ARAU)。 • (6)DWEB(数据写总线):将数据写入程序存储器和 数据存储器。
多总线:片内多条数据、地址和控制总线。
存储器结构
• 多数DSP采用了哈佛结构,将存储器空间划分成两个, 分别存储程序和数据。它们有两组总线连接到处理器 核,允许同时对它们进行访问。
第三部分: DSP 硬件结构
DSP的硬件结构
DSP的硬件结构,大体上与通用的微处理 器相类似,由CPU、存储器、总线、外设、接 口、时钟等部分组成,但又有其鲜明的特点。 对比介绍:
一、DSP芯片的鲜明特点
1.哈佛结构 2.流水线操作 3.专用的硬件乘法器
4.独立的DMA总线和控制器 5.移位 6.溢出 7.数据(程序)地址发生器(DAG) 8.等待状态发生器(WSGR)
在DSP中,设置了专门的数据地址发生器 (实际上是专门的ALU),来产生所需要的 数据地址,节省公共ALU的时间。
8.等待状态发生器(WSGR)
对慢速的外部逻辑和存储器接口访问时,通 过等待状态来延迟CPU等待外部存储器或外部 端口的时间以便更好地响应。
9、特殊的DSP指令
• DMOV——延迟操作 • LTD——LT、DMOV、APAC • MACD—— LT、DMOV、
2、流水线操作(pipeline)管道
4级流水线
指令周期
100 101 102B
…
CPUCLK
A取d指d令 F1 N D1 N+R11 EN1+2
N+3
S译u码b
N-1 F2 ND2 RN2+1 E2 N+2
取操作数
Mpy
执行
Store
N-2
NF-13
DSP把移位输出的最高位(MSB)存放 在一个位检测状态寄存器中,检测到 MSB=1时,(还未发生,可能将要发生) 就通知下一次会发生溢出,可以采取措施防 止。
7.数据地址发生器(DAG)
对于运算,数据的吞吐量,供给量快慢 很重要,需要寻找数据地址。
在通用CPU中,数据地址的产生和数据 的处理都由ALU来完成。
采用冯.诺依曼结构的处理器
总线结构
• TMS320C2000器件内部有6条16位总线。 • (1)PAB(程序地址总线):提供读、写程序存储器的
地址。 • (2)DRAB(数据读地址总线):提供读数据存储器的
地址。 • (3)DWAB(数据写地址总线):提供写数据存储器的
地址。 • (4)PRDB(程序读总线):将指令代码、立即操作数
9.特殊的DSP指令
1、改进的哈佛结构
程序/数据 存储器
CPU
冯·诺依曼( Von Neuman )结构
独立IO 空间
数据存 储器
程序存
CPU
储器
改进的哈佛( Harvard )结构
程序与数据存储空间分开,各有独立的 地址总线和数据总线,取指和读数可以同时 进行,从而提高速度,目前的水平已达到 90亿次浮点运算/秒(9000MFLOPS) MIPS--Million Instruction Per Second MFLOPS--Million Floating Operation Per Second