第二章 DSP芯片结构-蓝

合集下载

DSP第二章DSP芯片的基本结构和特征

并行移位器：用于小数结果的调整。
允许文本交换的4×12位堆栈两个间接寻址的辅助寄存器
双通道串行口（TMS32011,TMS320C17/E17）协处理器接口（TMS320C17/E17）器件封装：40脚双列直插（DIP）/44脚塑封（PLCC）
h
12
2.3.1.2 TMS320C10 TMS32010采用改进的哈佛结构，即程序和数据
DSP芯片的特征就是有一个专用的硬件乘法器。在TMS320系列中，由于具有专用的硬件乘法器，乘法可在一个指令周期内完成。
h
9
2.2.4 特殊的DSP指令
DSP芯片的另一个特征:特殊的指令。指令DMOV：它完成数据移位功能。在数字信号处理中，延迟操作非常重要，这个延迟就是由DMOV来实现的。
第二章
DSP芯片的基本结构和特征
h
1
2.1 引言
可编程DSP芯片是一种具有特殊结构的微处理器。 DSP芯片一般都具有程序和数据分开的总线结构、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字信号处理的指令集。
本章内容：DSP芯片的基本结构，TI公司的各种 DSP芯片的特征及其他公司的DSP芯片的特点。
h
7
CLKOUT1
取指译码执行
N N－1 N－2
N＋1 N
N－1
N＋2 N＋1
N
h
8
2.2.3 专用的硬件乘法器
乘法是DSP的重要组成部分。滤波器常常做一次乘法和一次加法（XY）。乘法速度越快，DSP
处理器的性能就越高。在通用的微处理器中，乘法指令是由一系列加法来实现的，故需许多个指令周期来完成。
期使得DSP芯片能够实时实现许多DSP应用。

第二章 DSP芯片结构介绍

15 14 13 12 11 10 9 8 7 6
5 4～0
BRAF CPL XF HM INTM 0 OVM SXM C16 FRCT CMPT ASM
块重复操
作标志位，
指示当前是(1)否(0) 在执行块重复操作。
直接寻址编方式位。指直接寻址时用何种指针 DP 的直接寻
辑示采。址
20
3．桶形移位器的功能
• 什么是定标
要点
• 移位处理的作用 • 归一化的作用
BA CD
信号控制
桶形移位器（40位）
• 为何要扩展符号位
S
ALU
最高/最低有效字选择
E
21
• 什么是定标
要 • 移位处理的作用
当数据存储器的数据送入累加器或与累加
点 • 归一化的作用
器中的数据进行运算时，先
17X17乘法
• 饱和处理的优点
40位加法
• 数据流向
检零饱和取整
25
• 结构
要 • 功能点 • 什么是舍入处理
• 饱和处理的优点 • 数据流向
乘法器/加法器单元可以在一个流水线状态周期内完成一次乘法累加（ MAC ）运算。
26
乘法器能够执行：
无符号数乘法（每个16位操作数前面加一个0）；
15～ 13 12 11 10 9 8～ 0 ARP TC C OVA OVB DP
进位位。
执行加法
产生进位
置1，减
Байду номын сангаас
法位
产则生清借0 。累加器溢出标志位。
数据存储器页指针。这9位字段与指令字中的低7位结合在一起，形成一个16位直接寻址存储器的地址，对数据存储器的一个操作数寻址。

DSP 第二章内部结构和外部引脚

二、乘积单元
1、乘法器
•输入：硬件乘法器的两个16位输入分别来自:
* 16位暂时寄存器(TREG)：
在执行乘法运算以前，TBEG从数据读总线(DRDB)装入一个数据值作为乘数之一。
指令：
LT dma
* 数据读总线(DRDB)的数据存储器值程序读总线(PRDB)的程序存储器值。
指令举例：
MPY
MPY
6
; 一个乘数来自 DRDB
#0F000H ;一个乘数来自PRDB
二、乘积单元
1、乘法器 •输出：两个输入值相乘后，32位乘积被暂时存放在乘积寄存器(PREG)中。
二、乘积单元
2、乘积定标移位器
•输入：32位乘积来自PREG •输出：执行定标移位操作以后，乘积有两种输出方式： * 32位乘积送至CALU进行再运算 * 通过SPH或SPL指令(存储乘积的高16位或低16位)送往数据存储器。指令举例： SPL dma SPH dma
PAB：程序地址总线:
提供对内部程序存储空间进行读写访问的地址。
总线结构
DRAB：数据读地址总线:
提供对内部数据存储空间进行读访问的地址。
总线结构
DWAB：数据写地址总线:
提供对内部数据存储空间进行写访问的地址。
总线结构
PRDB：程序读总线:
用于传递从内部程序空间到CPU的指令代码、立即数和表信息。
• 选择辅助寄存器：向寄存器辅助寄存器指针(ARP) ((ST0)中的3位)写入0—7范围内的数值。
由ARP所指定的辅助寄存器被称作当前辅助寄存器或当前AR。
辅助寄存器指针(ARP)的装载方式： • 用MAR指令，例：MAR *, AR1 • 用LST指令，装载ST0, • 其他支持间接寻址的指令，例：ADD *+, AR2

DSP 第二章 DSP芯片的基本结构和特征

1．存储器分配 TMS320C25具有4K字的片内程序ROM和544字的片内RAM。 RAM分为三块：B0、B1、B2。其中，B0块（256字）既可配置为数据存储器（用CNFD指令），也可配置为程序存储器（用CNFP指令）。其余288字（B1和B2块）只能是数据存储器。 544字的片内RAM可使C25能处理512字的数据阵列，如可进行 256点复数FFT运算，且尚有32字用作中间结果的暂存。 TMS320C25提供片外可直接寻址的程序和数据空间各64K字。寄存器组包含8个辅助寄存器（AR0~AR7），它们可用作数据存储器的间接寻址和暂存，从而增加芯片的灵活性和效率。这些寄存器既可用指令直接寻址，也可用3比特的辅助寄存器指针（ARP）间接寻址。辅助寄存器和ARP既可从数据存储器装数，也可装入立即数。寄存器的内容也可存入数据存储器中。辅助寄存器组与辅助寄存器算术单元（ARAU）相连接，用ARAU访问信息表无需CALU参与地址操作，这样可让CALU进行其他操作。
在哈佛结构中：由于程序和数据存储器在两个分开的空间中，因此取指和执行能完全重叠运行。 TMS320系列DSP芯片在基本哈佛结构的基础上作了改进：一是允许数据存放在程序存储器中，并被算术运算指令直接使用，增强了芯片的灵活性；二是指令存储在高速缓冲器（Cache）中，当执行此指令时，不需要再从存储器中读取指令，节约了一个指令周期的时间。如TMS320C30具有64个字的Cache。进一步提高了运行速度和灵
2.2.4 特殊的DSP指令DSP芯片的另一个特征:特殊的指令。指令DMOV：它完成数据移位功能。在数字信号处理中，延迟操作非常重要，这个延迟就是由DMOV来实现的。指令LTD：它在一个指令周期内完成LT、DMOV和 APAC（将乘法结果加到ACC中）三条指令。指令FIRS:

DSP 第二章 TMS320VC33的结构

另外，TMS320VC33的地址信号具有锁存功能，也就是说，如果不通过指令使地址线的状态发生改变，地址线上的电平将维持上一条指令输出的地址信号，这一点与大多数据单片机的地址信号是不同的。
（3）TMS320VC33的读写操作共用一个引脚，该引脚为输出脚，高电平为读，低电平为写，任何时候都处于读、写两种状态之一，多数情况下与外部存取选通信号和页选通信号配合工作。
C = CMOS E = CMOS EPROM
209、203、 240、241、 242
´F2xx DSP
F = Flash E EP RO M
206、240、 241、243
LC = Low-voltage C M O S (3.3 V)
† TQ FP = Thin Q uad Flat Package
当由0变为1时，DSP由复位向量指定的地址开始执行程序，这里所述的复位向量也是一种中断向量，而且是中断级别最高的中断向量。
（2）高阻控制信号可以与复位信号配合使用，也可以单独使用，使地址总线、数据总线和各输出信号处于高阻状态，但应注意与的区别，前者可以使DSP的所有输出信号均处于高阻状态，而后者只能使主总线接口信号中的地址线A0～A23、数据线D0～D31、读写控制信号、外部存取选通信号、页选通信号处于高阻状态；二者的另一个区别是：＝0不仅使各种输出信号处于高阻状态，同时也使DSP的存储器和寄存器的内容丢失，而仅仅使前述的4 种信号处于高阻的保持状态，不丢失有关的内容。
2.3.3串行口信号
串行口信号共6个，分别对应于6个引脚，这6个引脚构成一个全双工的串口，即任何时候都可以同时进行数据的接收和发送，而且接收和发送的数据的字长可以是8位、16位、24位或32位。对串行口的6个信号说明如下：

DSP课件第二章TMS320LF240x硬件结构

中断访问
当片内外设产生中断时，CPU响应中断并执行相应的中断服务程序对片内外设进行操作。
05
TMS320LF240x的电源管理和低功耗
模式
电源管理单元
电源管理单元（PMU）是TMS320LF240x芯片中的一个重要组成部分，负责控制芯片的电源供应和功耗管理。
PMU包含多个电源域，可独立控制各个电源域的开启和关闭，以实现灵活的功耗管理。
较
他设备进行数据交换，可配置为发送或接收模式。
器
比较器用于检测电压或电平是否达到预设值，输出电平
可配置为高或低，常用于 PWM控制或阈值检测。
看门狗定时器
片内外设的访问方式
直接访问
通过特定的寄存器地址直接读写片内外设的控制寄存器和数据寄存器。
间接访问
通过特定的寄存器地址读写片内外设的控制寄存器来配置片内外设，再通过数据寄存器进行数据传输。
PMU还具有过压和欠压保护功能，以确保芯片在异常电源条件下能够安全运行。
低功耗模式
TMS320LF240x支持多种低功耗模式，以便在不需要时降低芯
片功耗。
低功耗模式通过关闭不需要的内部时钟和电源域来实现功耗降低。
在低功耗模式下，芯片的某些功能将被禁用，但仍可以响应外部事件或中断，并在必要时唤醒。
需求。
输入输出电平
02
TMS320LF240x的输入输出电平一般为CMOS电平，能够与
TTL和CMOS电路兼容。
驱动能力
03
TMS320LF240x的驱动能力较强，能够驱动较大规模的外部电
路。
封装形式
• TMS320LF240x的封装形式一般为塑封或陶瓷封装，具体取决于应用需求和生产厂家。

第二章 DSP芯片的基本结构和特性

不需要等待状态，可以高速访问比使用外部存储器成本低
比使用外部存储器功耗低
2.4 片内存储器
存储器空间
存储器配置标志位 MP/MC位 0 片内ROM使能并能够访问 1 表示片内ROM无法访问 OVLY位 0 片内RAM只映射在数据空间 1 片内RAM同时映射到程序空间和数据空间 DROM位 0 片内ROM的不映射到数据空间 1 片内ROM的一部分映射到数据空间
存储器类型 RAM（片内或片外） DARAM (Dual Access RAM ) SARAM (Single Access RAM ) ROM （片内或片外）
2.4 片内存储器
存储器 ’541 类型 ROM 28K 20K 程序 8K 程序/ 数据 DARAM 5K SARAM 0
数字信号处理的硬件实现
第2章 DSP芯片的基本结构和特性
本章内容

DSP芯片的基本结构中央处理单元（CPU）总线结构和流水线片内存储器集成外设 TI定点和浮点DSP芯片
2.1 DSP芯片的基本结构

具有典型特点的DSP芯片结构
2.2 中央处理单元（CPU）

’542
2K 2K 0 10K 0
’543
2K 2K 0 10K 0
’545
48K 32K 16K 16K 0
’546
48K 32K 16K 6K 0
’548
2K 2K 0 8K 24K
’549
16K 16K 16K 8K 24K
’5402
4K 4K 4K 16K 0
’5409
16K 16K 16K 32K 0

DSP课件NO[1].2-DSPCPU结构PPT精品文档34页

改进的哈佛结构
CPU
PB
DB
PAB
DAB
程序存储器
数据存储器
10.01.2020
7
Harvard结构
程序与数据存储空间分开，各有独立的地址总线和数据总线，取指和读数可以同时进行，从而提高速度，目前的水平已达到90亿次浮点运算 /秒（9000MFLOPS）
MIPS--Million Instruction Per Second MFLOPS--Million Floating Operation Per Second
如果有写，那这个阶段装载写的地址
访问
读取
执行/写回
从PB总线取回指令加
载到IR
执行指令且
如果需要：加载DAB数据1的地址；如果需要：加载CAB数据2的地址；
更新辅助寄存器和堆栈指针
把要写入的数据加载到
存储器中
例2.2：流水线中的跳转指令
12
3
45
67
8
预取指取译码访问读取执行/写回
Program word size Data word size Auxiliary Register ALUs ALU Auxiliary Registers Data Registers
Memory
16 bits 16 bits 2 (16-bit each) 1 (40-bit)
8 0 separate data/prog
溢出
通用CPU中，溢出发生后，设置溢出标志，不带符号位时回绕，带符号位时反相，带来很大的误差
DSP把移位输出的最高位（MSB）存放在一个位检测状态寄存器中，检测到MSB=1时，就通知下一次会发生溢出，可以采取措施防止

DSP芯片的基本结构和特征

A BT 40 40 SXM ACC A 40 MUX AM MAC 输出 U B B 40 MUX 符号控制 Y
40
三、CPU
3.2 累加器
39 … 32 31 BG 保护位 … BH 16 15 … BL 低位字 0
保护
高位字
TMS32C54x累加器ACCB结构
三、CPU
3.2 累加器
.L1 .S1 .M1 .D1 .D2 .M2 .S2 .L2
TigerSHARC
ADSP-TS101 ADSP-TS201 ADSP-TS202 ADSP-TS203
3.2
十、小结
• 首先介绍了 DSP 芯片的基本结构，随后比较详细地介绍了TI公司的系列DSP芯片的基本特征，并简要介绍了AD等公司的DSP 芯片 • 由于 DSP 芯片的发展速度很快，用户在选用 DSP 芯片时，必须根据市场行情选用生产厂家主推的产品
SXM
TC (测试比特) ALU CSSU
桶形移位器 40 MSB/LSB 写选择 16 EB15 －EB0
三、CPU
3.4 乘累加单元
CB15 －CB0 DB15 －DB0 PB15 －PB0 T T D A：累加器A A P A D C B：累加器B C ：数据总线CB D：数据总线DB P：程序总线PB 符号控制 17 XM 17 YM A B MUX YA 加法器(40) 0 T：寄存器T 40 40 累加器A 累加器B
运行速度（最高）内部RAM 串行I/O口用户程序、数据ROM DMA控制器存储器宽度外部中断触发中断矢量表地址程序引导
电平/边沿触发可选电平/边沿触发可选
八、 TI浮点DSP芯片
九、其他DSP芯片

第二章DSP芯片结构和CPU外围电路

▪ 数据地址产生单元(DAGEN)和程序地址产生单元(PAGEN) ▪ 数据空间和和程序空间位同一物理空间，采用统一编址
第三页，编辑于星期四：一点七分。
第二章 DSP芯片结构和CPU外围电路
2.1.2 TMS320C55x CPU
CPU有4个功能单元：指令缓冲单元(I单元)，程序流程单元(P单元) ，地址数据流程单元 (A单元)和数据计算单元(D单元)
第十七页，编辑于星期四：一点七分。
第二章 DSP芯片结构和CPU外围电路
5、DPLL模式控制寄存器CLKMD
(1) BREAKLN为失锁指示(只读) ▪ 0：表示由于某种原因引起PLL失锁；
▪ 1：表示处于锁定状态，或发生对CLKMD寄存器的写操作。
(2) LOCK为锁定模式指示(只读) ▪ 0：表示DPLL处于旁路模式
时钟发生器由一个数字锁相环(DPLL)和一个模式控制寄存器
(CLKMD)组成。
CLKIN pin
DPLL
CLKOUT pin
CLKMD pin
CLKMD 寄存器
第十二页，编辑于星期四：一点七分。
第二章 DSP芯片结构和CPU外围电路
(3) 两种工作模式(模式控制寄存器标志位的定义)
▪ 若PLL_ENABLE＝0，DPLL工作于旁路(BYPASS)模式。 ▪ 若PLL_ENABLE＝1，DPLL工作于锁定(LOCK)模式。旁路模式中：DPLL只对输入时钟CLKIN作简单的分频，分频次数由
I单元的立即数和D单元的寄
存器值产生所需的地址，并将产生地址送到PAB。
第六页，编辑于星期四：一点七分。
第二章 DSP芯片结构和CPU外围电路
▪ 在程序流程单元中，控制和影响程序地址的寄存器有5类：

DSP原理与应第二章共105页

第2章 TMS320C54x的硬件结构
ALU的功能框图
CB15~CB0
T CB
DB15~DB0
A
MUX
DS
MUX
桶形移位器输出
A
B
MUX
A MAC输出 M
B U
SXM 符号ctr
符号ctr SXM
Y
X
ALU
OVM C16 C OVA/OVB ZA/ZB TC
第2章 TMS320C54x的硬件结构
2.1 ’C54x的基本结构1. ’C54x的主要优点
① 围绕1组程序总线、3组数据总线和4组地址总线而建立的改进哈佛结构，提高了系统的多功能性和操作的灵活性。
② 具有高度并行性和专用硬件逻辑的CPU设计，提高了芯片的性能。
③ 具有完善的寻址方式和高度专业化指令系统, 更适应于快速算法的实现和高级语言编程的优化。
⑥ 采用先进的静态设计技术，进一步降低了功 ③ 具有完善的寻址方式和高度专业化指令系统, 更耗适，应使于芯快片速具算有法更的强实的现应和用高能级力语。言编程的优化。
第2章 TMS320C54x的硬件结构
2. ’C54x的内部结构
TMS320C54x的组成
中央处理器CPU 内部总线控制特殊功能寄存器数据存储器RAM 程序存储器ROM
当正向溢出时，将32位最大正数00 7FFFFFFFH 装入累加器；
当负向溢出时，将32位最小负数FF 80000000H 装入累加器。
③状态寄存器ST0中与目标累加器相关的溢出标志OVA或OVB被置1。
第2章 TMS320C54x的硬件结构
3．进位位C ALU有一个与运算结果有关的进位位C，位于
2．溢出处理 ALU的饱和逻辑可以对运算结果进行溢出处理

第2章TMS320F2812DSP内部结构

3
该产品的主要特点是：
1.运算速度单周期指令执行时间为50、35或25ns；即运算能力为20、28.5或40MIPS。
4
2. 兼容性
源代码与TMS320C1X/C2X全部产品兼容; 产品与TMS320C5X产品向上兼容;
5
3. 片内存储器
内部配置数量不同的RAM和ROM存储器，有的芯片还配有闪速存储器Flash。利用闪速存储器存储程序，不仅能降低成本，减小体积，而且系统升级也比较方便。
27
2.1.1 TMS320F2812CPU内部结构
除以上几个主要部分外，该控制器还包含如指令队列、指令译码逻辑、中断处理逻辑等控制单元。
28
2.1.1 TMS320F2812CPU内部结构
F2812 CPU的主要寄存器 • 累加器（ACC，AH、AL） • 辅助寄存器（XAR0-XAR7，AR0-AR7） • 状态寄存器（ST0） • 状态寄存器（ST1)
32 32
16/32 8/16/32
Shift R/L (0-16)
32
8/16 32
程序存储区
Shift R/L (0-16)
数据存储区
32
ALU (32)
32 ACC (32) AH (16) AL (16)
AL.LSB AH.MSB AH.LSB AL.MSB
操作数2 来自于寄存器
• 32
Shift R/L (0-16)
1 1 1 1 2 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1
8
表 1.2 TMS320C24X 内部资源配置
设备 RAM ROM FLASH BOOT 通用看门 PWM SPI (16 位) (16 位) (16 位) ROM 定时器狗通道 _ _ _ _ _ 32K 16K 6K 8K _ _ 4K _ 32K 32K 16K 8K 8K _ _ _ _ 8K 8K _ 16K 256 256 256 256 256 _ _ _ _ _ _ _ _ 4 4 2 2 2 4 4 2 2 2 2 2 3 Y Y Y Y Y Y Y Y Y Y Y Y Y 16 16 8 8 7 16 16 8 7 8 8 8 12 Y Y Y _ _ Y Y _ _ Y Y _ Y SCI CAN Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y _ _ Y _ _ _ Y Y _ _ A/D 通道 16ch 16ch 8ch 8ch 5ch 16ch 16ch 8ch 5ch 8ch 8ch 8ch 16ch I/O 引脚 41 41 21 21 13 41 41 21 32 26 26 26 28 电压 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 5 5 5 5 MIPS 40 40 40 40 40 40 40 40 40 20 20 20 20

DSP芯片结构介绍

桶形移位寄存器最高/最S 低有效字
选择
TMS320C54x DSP的内部硬件组成图 5
第二节 C54x芯片的CPU结构
40位算术逻辑运算单元（ALU） 2个40位累加器A和B 包移位-16～30位的桶形移位寄存器括乘法器/加法器单元比较和选择及存储单元（CSSU）指数编码器 CPU状态和控制寄存器
18
例如：累加器A=FF 4321 1234h，求执行带移位的STH 和STL指令后，数据存储单元的TEMP中的结果。 STH A， 8，TEMP ；A中的内容左移8
；位后高位字存入TEMP，；TEMP=2112h STH A，-8，TEMP ；A中的内容右移8位后；高位字存入TEMP，；TEMP=FF43h STL A， 8，TEMP ；A中的内容左移8位后低位；字存入TEMP， TEMP=3400h STL A，-8，TEMP ；A中的内容右移8位后低位；字存入TEMP，TEMP=2112h
• 饱和处理的优点 • 数据流向
40位加法检零饱和取整
24
• 结构
要 • 功能点 • 什么是舍入处理
• 饱和处理的优点 • 数据流向
乘法器/加法器单元可以在一个流
水线状态周期内
完成一次乘法累加（ MAC ）运算。
25
乘法器能够执行：
①无符号数乘法（每个16位操作数前加一个0）；
30
6．指数编码器
• 结构 • 功能
A
B
EXP指数编码器
T寄存器
要点
如何计算指数
31
指数编码器是一个专用硬件。有了它，可以在单个周期内执行EXP指令，求得累加器中数的指数值，并以2的补码形式（-8~31）存放到T寄存器中。

第二章DSP的硬件结构(整理)

√
√
中央处理单元（CPU）
状态和控制部件、运算部件和各种寄存器
1.CPU状态和控制寄存器（3个16位存储器映像寄存器）
• (1) 状态寄存器0(ST0)； • (2) 状态寄存器1(ST1)； • (3) 处理器工作模式状态寄存器(PMST)。 • ST0和ST1主要包含各种工作条件和工作方式的状态；PMST
CLKOUT、器件电压等 – （7）不同内核电压以获取不同的芯片运行速度：
5.0v-40MIPS,3.3v-80MIPS,2.5v-100MIPS,1.8v200MIPS。
总线结构
一组程序总线PB
– 传送从程序存储器读取的指令代码和立即数；
三组数据总线（CB、DB、EB）
– CB,DB: 传送从数据存储器读出的操作数； – EB: 传送写入到数据存储器中的数据；
– (2) 存储器系统
• 包括片内程序ROM、片内单访问的数据RAM和双访问的数据RAM、外接存储器接口。
– (3) 片内外设与专用硬件电路
• 包括片内定时器、各种类型的串口、主机接口、片内锁相环(PLL)、时钟发生器及各种控制电路。
系统控制界面
系统控制
PAB PB
CAB CB
DAB DB
EAB EB
15~0 BL（低阶位）
中央处理单元（CPU）
2.运算部件
– （3）Barrel Shifter
• 功能：能把输入的数据进行0～31bit左移和0～ 16bit右移。
• 移位数定义：
– 用一个立即数(-16～15)表示。 – 用状态寄存器ST1的累加器移位方式(ASM)位表示，共
5位，移位数为-16～15。 – 用T寄存器中最低6位的数值(移位数为-16～31)表示

第2章 DSP芯片的基本结构和特征

第2章 DSP芯片的基本结构和特征第2章 DSP芯片的基本结构和特征值得拥有的资料是来自平时学习积累总结的有问题的地方肯定有的还请大家批评指正！第2章 DSP芯片的基本结构和特征2.1 引言可编程DSP芯片是一种具有特殊结构的微处理器为了达到快速进行数字信号处理的目的DSP芯片一般都具有程序和数据分开的总线结构、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字信号处理的指令集本章将首先介绍DSP芯片的基本结构然后介绍TI公司的各种DSP芯片的特征最后简要介绍其他公司的DSP芯片的特点2.2 DSP芯片的基本结构为了快速地实现数字信号处理运算DSP芯片一般都采用特殊的软硬件结构下面以TMS320系列为例介绍DSP芯片的基本结构TMS320系列DSP芯片的基本结构包括：（1）哈佛结构；（2）流水线操作；（3）专用的硬件乘法器；（4）特殊的DSP指令；（5）快速的指令周期这些特点使得TMS320系列DSP芯片可以实现快速的DSP运算并使大部分运算（例如乘法）能够在一个指令周期内完成由于TMS320系列DSP芯片是软件可编程器件因此具有通用微处理器具有的方便灵活的特点下面分别介绍这些特点是如何在TMS320系列DSP芯片中应用并使得芯片的功能得到加强的 2.2.1 哈佛结构哈佛结构是不同于传统的冯__183;诺曼（Von Neuman）结构的并行体系结构其主要特点是将程序和数据存储在不同的存储空间中即程序存储器和数据存储器是两个相互独立的存储器每个存储器独立编址独立访问与两个存储器相对应的是系统中设置了程序总线和数据总线两条总线从而使数据的吞吐率提高了一倍而冯__183;诺曼结构则是将指令、数据、地址存储在同一存储器中统一编址依靠指令计数器提供的地址来区分是指令、数据还是地址取指令和取数据都访问同一存储器数据吞吐率低在哈佛结构中由于程序和数据存储器在两个分开的空间中因此取指和执行能完全重叠运行为了进一步提高运行速度和灵活性TMS320系列DSP芯片在基本哈佛结构的基础上作了改进一是允许数据存放在程序存储器中并被算术运算指令直接使用增强了芯片的灵活性；二是指令存储在高速缓冲器（Cache）中当执行此指令时不需要再从存储器中读取指令节约了一个指令周期的时间如TMS320C30具有64个字的Cache 2.2.2 流水线与哈佛结构相关DSP芯片广泛采用流水线以减少指令执行时间从而增强了处理器的处理能力TMS320系列处理器的流水线深度从2_6级不等第一代TMS320处理器采用二级流水线第二代采用三级流水线而第三代则采用四级流水线也就。

第2章 DSP芯片结构介绍

传送）
32位长操作数指令。同时读入两个或3个操作数的指令。并行存储和并行加载的算术指令。（ST//LD）条件存储指令。（SACCD有条件存储累加器的值）从中断快速返回指令。（RETF）
例：32位长操作数 12345678h 0100h 0101h 1234 5678 高位低位

在片外围电路ຫໍສະໝຸດ 2. 程序存储器C54x有64K程序存储空间。C54x的片内ROM、DARAM、SARAM都可以映像到程序空间，取决于 PMST的MP/MC位和OVLY位的设置。 C54x的片内ROM容量大的有28K 字或48K字，小的只有2K字。容量大的片内ROM可以存放用户程序，但其高2K字（F800h~FFFFh）中的内容由TI公司定义。

C54x片内存储器：

1.存储器空间
处理器方式状态寄存器PMST 15~7 6 5 4 3 2 1 0
IPTR

MP/MC OVLY
AVIS
DROM
CLKOFF
SMUL SST
MP/MC位：

若MP/MC=0，则片内ROM安排为程序空间。若MP/MC=1，则片内ROM不安排为程序空间。若OVLY=1，则片内RAM安排为程序和数据空间。若OVLY=0，则片内RAM只安排为数据空间。若DROM=1，则部分片内ROM安排为数据空间。若DROM=0，则片内ROM不安排为数据空间。
TMS320C54X的内部硬件组成框图
第一节 TMS320C54x芯片的基本性能

CPU

先进的多总线结构。 40位算术逻辑运算单元（ALU），40位桶形移位器，两个40位累加器。 17位×17位并行乘法器与40位专用加法器相连。比较、选择、存储单元（CSSU）。指数编码器:可以在单个周期内计算40位累加器中数值的指数。双地址生成器:包括8个辅助寄存器和两个辅助寄存器算术运算单元（ARAU）。

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

要点：要点：为何要设置多内部总线
2.3 C54x芯片的存储器系统 C54x芯片的存储器系统
一.哈佛结构二.存储器分配三.I/O 空间
2011-5-1
C54x芯片的存储器系统
11
2.3 C54x芯片的存储器系统 C54x芯片的存储器系统
一、哈佛结构
冯•诺依曼结构：一组总线连接CPU和各单元电路 • 串行工作总线结构 • 取指令和取操作数分时进行 • 结构简单/成本低
2011-5-1
MAC 17×17乘法器 × 乘法器 40bit 加法器圆整和饱和桶形移位器 40bit 桶形 (-16,31)
40bitALU 比较选择单元加速器）（viterbi 加速器）指数编码器累加器 40bit 40bit ACCA ACCB
串行口主机接口通用 I器系统
14
1 .寻址空间 .寻址空间
三个寻址空间
• 64K字程序存储空间 64K字程序存储空间 • 64K字数据存储空间 64K字数据存储空间 • 64K字的I/O空间 64K字的I/O空间字的I/O
三种片内存储器类型： DARAM、SARAM、ROM DARAM: 每个机器周期内可被访问两次 SARAM: 每个机器周期内只可被访问一次注意：片内/片外寻址
2
程序/数据程序数据 ROM
程序/数据程序数据 RAM
A(15～0) ～ D(15～0) ～
内部总线 CPU
IEEE1149.1 标准测试/仿真仿真
等待状态发生器 6 通道 DMA ALU
(1)CPU：包括：算术逻辑单元、算术逻辑单元、乘法器、乘法器、累加器、移位寄存器、各种专门用途的寄存器、用途的寄存器、地址发生器、地址发生器、比较选择单元、比较选择单元、直属编码器以及内部总线；及内部总线；
8 个辅助寄存器 2 个寻址单元
C54x结构
TMS320C54x的内部结构
2011-5-1
C54x结构
3
2.1.2 TMS320C54x的主要特性 TMS320C54x的主要特性
⑴CPU
①先进的多总线结构，具有1条程序存储器数据总线、3条数据存储器数据总线先进的多总线结构，具有1条程序存储器数据总线、和4条地址总线； ②40位算术逻辑单元(ALU),40位桶形移位寄存器和2个独立的40位的累加器； 40位算术逻辑单元(ALU),40位桶形移位寄存器和2个独立的40位的累加器； ③17位乘17位的并行乘法器与一个40位的专用加法器结合在一起，用于单周期 17位乘17位的并行乘法器与一个40位的专用加法器结合在一起，乘／累加操作； ④比较、选择和存储单元(CSSU)，用于Viterbi操作(一种通信的编码方式)中比较、选择和存储单元(CSSU)，用于Viterbi操作(一种通信的编码方式) 的加/ 的加/比较选择； ⑤指数编码器用于在单周期内计算40位累加器的指数值；指数编码器用于在单周期内计算40位累加器的指数值； ⑥2个地址生成器，包括8个辅助寄存器和2个辅助寄存器算术单元。个地址生成器，包括8个辅助寄存器和2个辅助寄存器算术单元。
C54x芯片的结构和特性 2.1 C54x芯片的结构和特性
2.1.1 TMS320C54x的内部结构
(2)存储器系统：存储器系统：存储器系统包括 16 ～ 24 位外接存储器接口、片内的程序ROM、片内的程序、片内的单访问的数据RAM和双访数据和双访问的数据RAM；问的数据； (3) 片内的外设：包括片内的定时器、各种类型的串口、主机接口、片内的锁相环(PLL) 的锁相环时钟发生器以及各种控制电路； JTAG接口接口。 ⑷JTAG接口。
第二章
DSP芯片C54x结构原理 DSP芯片C54x结构原理芯片C54x
2.1 TMS320C54x芯片结构和特性 TMS320C54x芯片结构和特性 2.2 内部总线结构 2.3 存储器结构 2.4 CPU结构 CPU结构 2.5 在片外围电路 2.6 中断 2.7 流水线结构
掌握：掌握： TMS320C54X的总线结构、存储器系统；CPU存储器映射寄存器状态寄存器的的结构和功能熟悉：熟悉：CPU的组成，TMS320C54X的内部结构了解：了解：TMS320C54X的主要特性
CB：双数据读、长数据读（32位）读高位：双数据读、长数据读（位读高16位 DB:单数据读、双数据读、长数据（32位）读低位、外设读单数据读、单数据读双数据读、长数据（位读低16位
• 地址总线（PAB、CAB、DAB 和 EAB）：传送执行指令所需的地址。地址总线（PAB、CAB、 EAB）：传送执行指令所需的地址。
2．存储器空间的配置（划分与交叉）
片内存储器类型有三种：ROM、DARAM、SARAM
• 片内ROM是程序存储器空间的一部分，有时部分也可用作数据空间的一部分。各类器件的片内ROM容量不同。 • DARAM由几个块组成。CPU可在一个周期内对同一DARAM块进行两次读或写操作。 DARAM通常划分为数据空间，且主要用于存储数据值；有时也可划分为程序空间，用于存储程序代码。 • SARAM也是由几个块组成。一个SARAM块在每个机器周期只可被访问一次，进行读或写操作。SARAM通常被划分为数据空间，且主要用于存储数据值；有时也可被划分为程序空间，用于存储程序代码。 MP/MC 位 OVLY 位 DROM 位
16位地址总线： 16位地址总线：可寻址的地址空间位地址总线
216 = 26*210 = 64 K
16位数据总线：存储单元的字宽为16位 16位数据总线：存储单元的字宽为16位位数据总线 16
内部总线结构
不同指令使用的总线
读/写方式 PAB 程序读程序写单数据读双数据读长数据(32 (32位长数据(32位) 读单数据写数据读/ 数据读/数据写双数据读/ 双数据读/系数读外设读外设写 △ △hw △ △ △ △ △lw △ △ △ △ △ △ △ △ △ △ △ △ △ △ △ △hw △ △ △lw △ △ 地址总线 CAB DAB EAB 程序总线 PB △ △ 数据总线 CB DB EB
• ’C54x还有一条在片双向总线，用于寻址片内外围电路。这条总线通过还有一条在片双向总线，还有一条在片双向总线用于寻址片内外围电路。这条总线通过CPU接接口中的总线交换器连到DB和。利用这个总线读/写需要2个或个以上周期，个或2个以上周期口中的总线交换器连到和EB。利用这个总线读写，需要个或个以上周期，具体时间取决于外围电路的结构。具体时间取决于外围电路的结构。在片双向总线均为16位总线在片双向总线均为位总线
2011-5-1
TMS320C54x的主要特性
4
2.1.2 TMS320C54x的主要特性续 TMS320C54x的主要特性续
(2) 存储器系统 ①具有16位192 K的基本可寻址空间：64 K字程序空间，64 K字数据和64 具有16位的基本可寻址空间：64 字程序空间，字数据和64 K字的I/O空间；字的I/O空间； ②片内的存储器结构及容量根据芯片的型号有所不同(见表2-1) 片内的存储器结构及容量根据芯片的型号有所不同(见表2 (3) 在片外设和专用电路 ①软件可编程等待状态发生器； ②可编程的存储器体转换逻辑； ③片内的锁相环(PLL)时钟发生器，可采用内部振荡器或外部的时钟源；片内的锁相环(PLL)时钟发生器， ④外部总线关断控制电路可用来断开外部数据总线、地址总线和控制信号；外部总线关断控制电路可用来断开外部数据总线、 ⑤数据总线具有数据保持特性； ⑥可编程的定时器； ⑦直接存储器访问(DMA)控制器；直接存储器访问(DMA)控制器； ⑧可与主机直接连接的8位并行主机接口(HPI)，有些产品(见表2-1)还包括：可与主机直接连接的8位并行主机接口(HPI)，有些产品(见表2 扩展的8位并行主机接口(HPI8 16位并行主机接口(HPIl6 扩展的8位并行主机接口(HPI8)和16位并行主机接口(HPIl6)； ⑨片内的串口根据型号不同分以下类型(见表2-1)：片内的串口根据型号不同分以下类型(见表2 全双工的标准串口，支持8位和16位数据传送、时分多路(TDM)串口、全双工的标准串口，支持8位和16位数据传送、时分多路(TDM)串口、缓冲串口(BSP)以及多通道缓冲串口(McBSP)。串口(BSP)以及多通道缓冲串口(McBSP)。
程序存储器
数据存储器
CPU
哈佛结构：哈佛结构：多组总线连接CPU和各单元电路
•并行工作总线结构 •取指令和取操作数同时进行 •结构较复杂/成本较高程序存储器数据存储器
数据总线
CPU
程序总线
C54x芯片的存储器结构采用哈佛结构
二、存储器分配
1.寻址空间 2.存储器空间的配置 3.程序存储器 4.数据存储器 5.存储器映像寄存器MMR
2011-5-1 TMS320C54x的主要特性 5
2.1.2 TMS320C54x的主要特性续 TMS320C54x的主要特性续
(4) 片内的引导功能除TMS320C5420外，所有的芯片都具有片内的引导功能，能从片外的存储器 TMS320C5420外所有的芯片都具有片内的引导功能，将程序引导装入指定的存储器位置。将程序引导装入指定的存储器位置。 (5) 指令系统 ①单指令重复和块重复操作指令； ②用于程序和数据管理的存储器块传送指令； ③32位长操作数指令； 32位长操作数指令； ④同时读入2个或3个操作数的指令；同时读入2个或3 ⑤并行存储和装入的算术指令； ⑥条件存储指令； ⑦快速从中断返回的指令； ⑧具有延迟转移和调用指令； ⑨指令的执行采用指令预提取、指令提取、指令译码、访问操作数、读取指令的执行采用指令预提取、指令提取、指令译码、访问操作数、操作数、执行等6级流水线并行结构，大大提高了指令的执行速度。操作数、执行等6级流水线并行结构，大大提高了指令的执行速度。