C6000系列DSP的CPU结构概述
浅谈C2000 C5000和C6000的内部结构及区别
浅谈C2000C5000和C6000的内部结构及区别姓名:王莎班级:SJ1239学号:201221902003摘要:随着计算机和数字信号处理技术的快速发展和广泛应用,数字信号处理(DSP)引发了工业设计的革命,成为了工程实现的关键。
本文通过TI公司的TMS320C2000、TMS320C5000和TMS320C6000三大主流芯片内部结构介绍和比较,得出了它们之间的不同和共同点,并对它们进行了对比性说明。
关键词:DSP;内部结构;比较Abstract:With the computer and digital signal processing technology rapid development and the widespread Abstract:application,digital signal processing (DSP)has brought the industrial design revolution and become the key to the realization of the project.This paper introduces the Texas instruments(TI) company three mainstream chip internal structures,TMS320C5000、TMS320C2000and TMS320C6000,which are introduced and compared for all series of chips to know the different and common points between them,and has carried on the comparative to their specifications.Keywords:DSP;Internal structure;comparison1.前言世界上第一个单片DSP芯片是1978年AMI公司发布的S2811,1979年美国Intel公司发布的商用可编程器件2920是DSP芯片发展史上一个重要的里程碑。
DPSc6000系列的基本特点
C6000系列DSP1.它的预算速度能够达到800MIPS,并拥有高效的C编译器。
2.C6000系列每个周期能够执行8条32为的指令,它的内核CPU由两个寄存器A和B组成,并且具有8个32位字长的功能单元,其中两个乘法器和六个算术逻辑运算单元(ALU)。
3.C6000系列的组要特点:指令打包功能:给定代码大小等效于8条指令,可以穿星火并行执行以减小代码的长度,减少程序的取指时间和系统的功耗。
所有指令有条件执行;支持40位的算术运算,能够为各种高强度计算和编码提供附加精度;C62X/ C64X/ C67X有32位的字节可寻址地址空间。
内部存储器(片上)分为独立的数据空间和程序空间。
DMA控制器,无需CPU参与就可以在存储器映射中的不同地址范围间传输数据,DMA控制器有四个可编程通道和一个辅助通道。
EDMA控制器,与DMA控制器的功能能相同,有16个可编程通道还有一个RAM空间为未来所需的传输保持多种配置。
4.通用寄存器组C6000有两组通用寄存器A和B。
C62x/C67x每个寄存器组有16个32位寄存器(A组A0~A15,B组B0~B15)。
这些通用寄存器可以当做数据、数据地址指针或条件寄存器使用。
C64x则有32个32位的通用寄存器(A组A0~A31,B组B0~B31)。
5.数据通路的功能能单元C6000系列数据通路的功能单元可以被分为两组,每组四个(.L1, .S1 . .M1 , .D1 , 和.L2, .S2 , .M2 , .D2),对应的功能相同。
他们分别执行特定的定点运算和浮点运算。
6.寄存器交叉通路每个功能单元直接对各自数据通路的寄存器进行读写。
即.L1, .S1, .M1,和.D1单元写入寄存器组A,.L2, .S2, .M2,和.D2单元写入寄存器组B。
寄存器组通过交叉通路1X和2X与另一个寄存器组的功能单元相连。
这两个交叉通路允许一个同路的功能单元访问另一个通路寄存器的32位操作数,其中通路A的功能单元通过交叉通路1X访问寄存器B的资源,通路B的功能单元通过交叉通路2X访问A的资源。
C6000系列DSP的CPU结构概述
控制状态寄存器
包括全局中断使能位、高速缓冲存储器控制位和其它各种控制和状态位
IFR
中断标志寄存器
显示中断状态
ISR
中断设置寄存器
允许软件控制挂起的中断
ICR
中断清除寄存器
允许软件清除挂起的中断
IER
中断使能寄存器
允许使能/禁止个别中断
ISTP
中断服务表指针
指向中断服务表的开始
IRP
中断返回指针
保存从可屏蔽中断返回时的地址
TMS320C62xxCPU数据通路
功能单元——执行的操作(黑体字为只有c64系列才有的功能)
功能单元 .L单元(.L1 ,.L2)
.S单元(.S1,.S2)
定点操作
32/40 位算术和比较操作 32 位中最左边 1 或 0 的位数 计数 32 位和 40 位归一化操作 32 位逻辑操作 字节移位 数据打包/解包 5 位常数产生 双 16 位算术运算 4 个 8 位算术运算 双 16 位极小/极大运算 4 个 8 位极小/极大运算
② 与 C6000 公共指令集内对应指令的功能及运行基本一致, 主要差别 是指令操作数的类型增加了。
③ 新增指令 48 条, 例如求点积和的指令 DOTP2、 Galois 域乘法运 算指令 GMPY4 和数据打包与解包指令 PACK2/UNPKHU4 等。
指令操作码映射
是否等于零ห้องสมุดไป่ตู้测试
指令域
并行执行
功能单元——执行的操作(红色字体为只有c64系列才有的功能)
功能单元 .M单元(.M1,.M2)
.D单元(.D1,.D2)
定点操作
浮点操作
16×32 乘法操作 4 个 8×8 乘法操作 双 16×16 乘法操作 双 16×16 带加/减运算的乘法操 作 4 个 8×8 带加法运算的乘法操作 位扩展 位交互组合与解位交互组合 变量移位操作 旋转 Galois 域乘法
ti公司三大DSP芯片的区别
TI公司三大系列DSP内部结构之比较班级:SJ1126 姓名:刘帅民学号:201120195005摘要:文章首先介绍了DSP的一些基本知识,引出制造DSP的主要厂商,然后,就TI公司的三大主流DSP芯片:TMSC2000、TMSC5000、TMSC6000的内部结构做了一些简单的比较。
关键词:TI;DSP;TMSC2000;TMSC5000;TMSC6000;Abstract:First article introduces some basic knowledges of DSP, resulting in the main companies that making DSP,then, to the three dominant DSP chips: TMSC2000, TMSC5000,TMSC6000's inner structure of the TI company make some simple compare.Keyword:TI;DSP;TMSC2000;TMSC5000;TMSC6000;一引言DSP有两种解释:一种是数字信号处理器(Digital Signal Processor),也称数字信号芯片;另一种是数字信号处理技术(Digital Signal Processing)。
我们所说的DSP所指的就是前者。
DSP是一种特别适合于进行数字信号处理运算的微处理器,其主机应用是实时快速地实现各种数字信号处理算法。
根据数字信号处理的要求,DSP芯片一般具有如下主要特点:(1)在一个指令周期内可完成一次乘法和一次加法;(2)程序和数据空间分开,可以同时访问指令和数据;(3)片内具有快速RAM,通常可通过独立的数据总线在两块中同时访问;(4)具有低开销或无开销循环及跳转的硬件支持;(5)快速的中断处理和硬件I/O支持;(6)具有在单周期内操作的多个硬件地址产生器;(7)可以并行执行多个操作;(8)支持流水线操作,使取指、译码和执行等操作可以重叠执行;DSP芯片的基本结构图如图一所示。
DSP2-1x(c6000系列cpu结构和指令集)
2-1 2012.1主讲教师:任海鹏1. 8088CPU结构和240DSP流水线 2. C6000系列DSP的CPU结构 3. C6000系列DSP的公共指令集 4. C6713浮点运算指令 5. C6000系列DSP的流水线操作 6. 中断结构和中断响应《DSP原理及应用》 2 任海鹏8088CPU结构Execution Unit and Bus Interface Unit《DSP原理及应用》3任海鹏8088CPU结构8088CPU由两个部分构成。
Execution Unit包括ALU,它负责指令的执行。
Bus Interface Unit负责与存储器和I/O的接口。
两部分操作各自独立进行。
《DSP原理及应用》4任海鹏8088CPU结构与一般8位 微处理器相比, 指令队列缓冲器 是8088设计上的 独特之处。
zCPU的工作 1、取指令 2、取数据 3、计算 4、存数据5 任海鹏《DSP原理及应用》8088CPU结构一般8位微处理器指令执行过程。
取指 执行 取指 执行 … 取指有了指令队列缓冲器8088可以这样执行指令。
取指 执行 取指 执行 取指 执行这样执行提高了 总线的利用效率。
只要指令不要求进行存储器或I/O访问,BIU就可以 读入指令,直到指令队列满。
《DSP原理及应用》 6 任海鹏8088CPU结构由8088微机原理我们可以得到关于微处理器的以 下基本概念:}微处理器通过中央算术逻辑单元进行数据计算; }可以通过一系列程序(指令)控制CPU完成一个完整功能; }微处理器计算过程中需要从程序存储器读程序,以便知道下一步的操作; }执行一个指令的操作时可能需要从数据存储器读入操作源数 据; }指令执行的结果可能要存入数据存储器; }程序和数据的读取以及数据的存储都要用BIU;《DSP原理及应用》 7 任海鹏240 DSP流水线《DSP原理及应用》8任海鹏240 DSP流水线z总线结构和接口方式}总线结构是计算机体系结构中的基本结构——传送数据和地址的通道; }总线结构提供了一种标准的接口方式——所有满足标准 的设备都可以挂接; }总线的传输方向是双向的,使用时要避免冲突——采用 时序控制; }总线的性能可以从响应速度,位宽,负载能力等几个方 面来衡量;《DSP原理及应用》9任海鹏240 DSP流水线z总线时序1、总线的时序一般分为四个独立的阶段: instruction-fetch, instruction-decode, operand-fe tch, and instruction execute. 2、单一地址总线和单一数据总线结构:在任意一个时钟 周期内只能有一条指令被执行; 3、提高处理速度:1)提高主频;2)加宽数据位宽; 3)采用多总线;《DSP原理及应用》10任海鹏240 DSP流水线z240DSP的内部总线结构(Enhanced Harvard Architecture)}PAB(Program Address Bus)为程序存储器的读、写提供地址}DRAB(Data-Read Address Bus)为读数据存储器的操作提供地址}DWAB(Data-Write Address Bus)为向数据存储器写的操作提供地址240 DSP流水线z DSP的内部总线结构(Enhanced Harvard Architecture)}PRDB(Program Read Bus)从程序存储器向CPU传送指令、立即数和表信息}DRDB(Data-Read Bus)从数据存储器向中央算术逻辑单元、辅助寄存器算术单元传送数据}DWEB(Data-Write Bus)向程序存储器和数据存储器传送数据240 DSP流水线DSP总线结构图240 DSP流水线z 流水线操作}指令的流水线处理由一系列发生在一条指令执行过程中的总线操作组成}4个独立的阶段:取指(instruction-fetch)、译码(in struction-decode)、取操作数(operand-fetch)和执行指令(instruction execute)各阶段使用不同的}指令执行不同阶段的总线操作取指——程序地址总线,程序读数据总线;资源互不冲突,可以并行!!译码——在CPU译码电路内完成不需要总线操作;取操作数——数据读地址总线,数据读数据总线;执行——算术逻辑单元,数据写地址和数据写数据总线。
1_2 C6000的体系结构和汇编语言(2).
控制/状态寄存器: 模式设置和状态标识
存储器的结构的学习:
目的:如何更快的取数
远见品质
控制/状态寄存器:CSR
远见品质
控制/状态寄存器:CSR
CPU版本
远见品质
Powerdown逻辑
远见品质
Powerdown逻辑
远见品质
大小端位
Little-endian ordering, in which bytes are ordered from right to left, the most significant byte having the highest address
两个16 × 16bit->2个32bit 一个16×32bit-> 64bit 一个16×32bit ->32bit 舍入并右移运 算 4个8×8->4个16bit
远见品质
C64xx的其它运算指令
求极值运算指令:MAX2、MAXU4、 MIN2、MINU4 16-16比;8-8-8-8比
Galois域多项式生成函数寄存器与乘法指 令GMPY4 算法的硬件实现; 工程应用-要求->芯片设计实现
中断使能寄存器(IER):使能或禁止中断处理。
中断标志寄存器(IFR):示出有中断请求、尚未得到服 务的中断。
中断设置寄存器(ISR):人工设置IFR中的标志位。
中断清零寄存器(ICR):人工清除IFR中的标志位。
中断服务表指针(ISTP):指向中断服务表的起始地址。
不可屏蔽中断返回指针(NRP):包含从不可屏蔽中断返 回的地址,该中断返回通过B NRP指令完成。
C6000系列DSP体系结构介绍
C6000系列DSP体系结构介绍C6000 体系结构和汇编语言远见品质General DSP System Block DiagramInternal MemoryInternal BusesExternal MemoryCentral Processing UnitP E R I P H E R A L S远见品质C6000 CPU ArchitectureVLIW, Very Long Instruction word远见品质C6201/04/05 片内存储器远见品质C6701片内存储器远见品质C64x 片内2级存储器C64的 L1D的存储体结构:8×32bit 。
(32B) L1D行:64B。
共128组(4K字)远见品质程序员角度的DSP结构:存储器的层次片外存储器片内存储器数据寄存器处理单元远见品质C62xx CPU Core远见品质C67xx CPU Core远见品质C64xx CPU Core远见品质u u u u u u u u u u u u u一条C6000的指令和其机器码C6000: ADD .D2 B5,B4,B4 ADD (.D2 or.D1) src2,src1,dst1 00000010000101001000100001000010 000 0 00100 00101 00100 010000 10000 1 0 (1) (2) (3) (4) (5) (6)(7)(8)(9)(1) 条件寄存器: A1,A2,B0~2; C64添加A0 (2) z,指定条件寄存器的判断条件 (3) dst,目的 (4) src2,源2 (5) src1, 源1 (6) 操作码:设定唯一指令的码,sint,2个源和目标都为有符号整数且功能单元为D时的操作码就是010000 ; (7) 固定值 (8) s,选择A边寄存器还是B边寄存器 (9) p,是否并行远见品质对比:8086的ADD指令8086/8088 一条指令长1~6字节 8086 ADD CX,DX CX和DX相加放到CX 000000 0 1 11 001 010;寻址方式和立即数,这里没有ADD (1) (2) (3) (4)(5)(1)0 reg为目的,(2)1 字处理(8086的字为16bit), 表示操作的是CX,DX不是 CL,DL。
第2章 TMS320C6000系列DSP硬件结构
6.TMS320C6000控制寄存器组
• 对控制寄存器组访问的功能单元为.S2。访问控制寄存器的指令为 MVC。表2-3列出了TMS320C6000系列DSP的控制寄存器组包含的 控制寄存器及其功能描述。
2.2 TMS320C6000系列DSP的存储器
图2-16所示的阴影部分为程序存储控制器和数据存储器控制器在 TMS320C62x/C67x DSP结构中的位置。
外部存储器接口
当同时存在多个请求同时到达,EMIF根据优先级进行仲裁并响应各 个请求。TMS320C620x/C670xDSP中的EMIF位置如图2-30的阴影部 分。
外部存储器接口EMIF
• 1.TMS320C6201/C6701的外部存储器接口 • 图2-31为TMS320C6201/C6701外部存储器接口信号图。表2-17为接 口信号的详细说明。
TMS320C62x/C67x/C64x系列DSP的CPU 数据通路分别如图所示。 其数据通路的主要组成部分如下:
• • • • • • 2个通用寄存器组(A和B); 8个功能单元(.L1,.L2,.S1,.S2,.M1,.M2,.D1和.D2); 2个存储器读取数据通路(LD1和LD2); 2个存储器存储数据通路(ST1和ST2); 2个数据寻址通路(DA1和DA2); 2个寄存器组数据交叉通路(1×和2×);
• 2.3.1 外部存储器接口概述 • EMIF是外部存储器和TMS320C6000片内其他单元的接口,CPU访问 外部存储器必须通过外部存储器接口(EMIF)为各种外部器件提供 无缝接口。其数据宽度为32位,可寻址的空间为4GB,数据吞吐能力 可以达到932Mb/s,支持的器件类型如下: • 流水线式同步突发RAM(SBSRAM); • 同步动态RAM(SDRAM); • 异步器件,包括SRAM,ROM和FIFO等; • 外部共享存储器。 • TMS320C620x/C670x的EMIF通过4种请求器处理外部总线请求: • CPU程序取指的片内程序存储器控制器; • CPU数据取指的片内数据存储器控制器; • 片内直接存储器存取控制器; • 外部共享存储器设备的控制器(通过EMIF仲裁信号)。
浅谈'C2000、'C5000、'C6000的内部结构和区别
浅谈C2000、C5000和C6000的内部结构和区别摘要:德仪公司的DSP分为多种系列,其中TI公司的TMS320系列的DSP在全球应用中较为广泛。
本文重点对TMS320系列下的C2000系列,C5000系列,C6000系列的内部结构做重点介绍,并对其内部结构进行比较。
为了更好地了解其内部结构下面主要从三大方面进行总结,分别是:中央处理单元(CPU)、存储器和I/O空间、外围设备。
关键词:内部结构C2000系列C5000系列C6000系列Introduction to the internal structure and distinction ofC2000,C5000,C6000Abstract:The digital signal processors of the TI company are the widely used for many years.the IT company's DSP is divided into several series,in which TMS320 series have an wide application in the global .Toward the C2000 series, C5000 series, C6000 series which belong to TMS320 series,this paper mainly makes summary and comparison about their internal structure. In order to better understand its internal structure below summarizes mainly from three aspects, respectively is: the central processing unit (CPU), memory and I/O space, and peripheral devices.Keywords:Digital signal processing The internal structure C2000 series C5000 series C6000 series 一、引言在生产数字信号处理的全球企业中,美国的德仪公司生产的数字信号处理器多年来一直占据了较大的DSP生产市场,并且在不断的扩大。
第2章 TMS320C6000系列的硬件结构-233
2.3.3 内部程序存储器
②Cache使能:
b 对已经缓存的取指包的访问将引起高速缓存命中(cache hit),缓存中取指包立即送入CPU不再需要等待。
c 程序RAM由存储器映射模式改为cache使能模式时,会 自动产生程序cache的冲洗(flush ),这也是冲洗cache的惟 一方式。
2.3.3 内部程序存储器
2.3.3 内部程序存储器 1、 程序存储器的结构
C6202 (B) /C6203 (B)
片内程序分为2个存储块Block好处?
2块程序存储区可以独立存取,允许对一个存储区进行 程序取指的同时在另一个存储区中进行DMA访问,二者 不会产生冲突。
IPRAM——结构
C6202 (B)的片内 程序存储器与控制
cache —地址的解析
•5-bit作为取指包的固定偏移单位 (alignment)
•11-bit作为块偏移地址,表明一个取 指包在某个2K frame块中的位置
•10-bit作为标记,标记的是取指包所 在存储块在外部存储空间中的原始位 置
cache —机制
2Kx11bit 的标记RAM •1bit有效标志位,用来标识该取指包是否缓存在cache里
2.3.5 内部数据存储器
思考:为什 么C67的bank 数为8?
2.3.5 内部数据存储器
(2) C6701
每一块RAM被组织为8个16 bit宽度、2 K深度 的存储体
数据吞吐率最高可以达到每周期同完成2个64 bit的CPU访问和1个32 bit的DMA访问。
1 CPU数据通道包括哪些资源?
2 数据交叉通路中,数据从A侧传向B侧是() A 1X B 2X 3 数据交叉通路(1X和2X)在功能单元( )可 作为src1和src2 A .L B .S C .M
DSP芯片的基本结构和特征
DSP芯片的基本结构和特征引言DSP芯片(Digital Signal Processor,数字信号处理器)是一种专用于数字信号处理任务的微处理器。
它具有高处理速度和低功耗等特点,广泛应用于音频、视频、通信、雷达、图像处理等领域。
本文将介绍DSP芯片的基本结构和特征,以便读者更好地了解和应用该技术。
1. DSP芯片的基本结构DSP芯片的基本结构通常包括三个主要部分:中央处理单元(CPU)、存储器和数字信号处理模块。
下面将详细介绍这些部分的功能和特点。
1.1 中央处理单元(CPU)中央处理单元是DSP芯片的核心,负责控制和执行指令。
它通常由一个或多个运算单元(ALU)和一个控制单元组成。
ALU负责执行算术和逻辑运算,而控制单元则负责解码和执行指令序列。
中央处理单元是DSP芯片实现高速运算的关键部分。
1.2 存储器存储器是DSP芯片的重要组成部分,用于存储程序代码、数据和中间结果。
它通常包括两种类型的存储器:指令存储器(程序存储器)和数据存储器。
指令存储器用于存储程序代码和指令,而数据存储器用于存储数据和中间结果。
存储器的大小和访问速度对DSP芯片的性能有重要影响。
1.3 数字信号处理模块数字信号处理模块是DSP芯片的核心功能模块,用于执行数字信号处理任务。
它通常包括以下几个功能单元:时钟和定时器单元、数据通路单元、乘法器和累加器(MAC)单元以及控制逻辑单元。
时钟和定时器单元用于提供时序控制和定时功能,数据通路单元用于数据传输和处理,乘法器和累加器单元用于高速乘加运算,控制逻辑单元用于控制和协调各个功能单元的操作。
2. DSP芯片的特征DSP芯片相较于通用微处理器具有一些明显的特征,下面将介绍几个主要特征。
2.1 高速运算能力DSP芯片具有高速运算能力,主要得益于其专门的运算单元和并行处理能力。
相较于通用微处理器,DSP芯片能够更快地执行算术和逻辑运算,满足实时信号处理的需求。
2.2 低功耗设计DSP芯片在设计过程中注重功耗的控制,以满足移动设备和嵌入式系统等低功耗应用的需求。
DSP2-2(c6000系列cpu结构和指令集)
2-2 2013.1主讲教师:任海鹏1. 8088CPU结构和240DSP流水线 2. C6000系列DSP的CPU结构 3. C6000系列DSP的指令基础 4. C6000系列DSP的流水线操作 5. 中断结构和中断响应《DSP原理及应用》2任海鹏z概述 z寻址方式和数据访问指令 zSOP操作举例《DSP原理及应用》3任海鹏SOP操作举例zSOP的实现SOP是许多DSP算法的关键 组件。
这里写出SOP算法, 来学习C6000的程序的基本 结构。
Y = ∑ an * xnn = 1N= a1 * x1 + a2 * x2 +... + aN * xN此算法需要两个基本操作: : 1)乘 2)加 因此,需要2个基本指令。
《DSP原理及应用》4任海鹏SOP操作举例zSOP的实现乘法的实现Y = ∑ an * xnn = 1N= a1 * x1 + a2 * x2 +... + aN * xNa1乘x1用如下汇编语言 指令实现: 该指令由称为“.M”的乘法 器单元执行。
《DSP原理及应用》5任海鹏zSOP的实现Y = ∑ an * xn40注意: 16位×16位产生32位积; 32位×32位产生64位积;n = 1= a1 * x1 + a2 * x2 +... + aN * xN由.M单元硬件完成乘法操作:《DSP原理及应用》6任海鹏zSOP的实现Y = ∑ an * xnn = 140.M= a1 * x1 + a2 * x2 +... + aN * xN由.M单元硬件完成乘法 操作:《DSP原理及应用》7任海鹏zSOP的实现Y = ∑ an * xnn = 140.M .?= a1 * x1 + a2 * x2 +... + aN * xN由.L单元硬件完成加法 操作:《DSP原理及应用》8任海鹏zSOP的实现Y = ∑ an * xnn = 140.M .L像 C6000 这 样 的 RISC 处 理器使用寄存器保持操作数。
第2章TMS320C6000DSP芯片概述
2.1 DSP芯片概述
TMS320C5000系列DSP芯片:
➢ 适合通信设备的开发,如媒体播放器、3G电话、电 子图书、无线Modem、GPS接收装置、指纹识别 系统等;
TMS320C6000系列DSP芯片:
➢ 硬件结构功能强大,适用于高速信号处理设备中, 如图像图形处理、无线网络、多媒体网关、宽带视 频转换器、视频主/从模式服务器和网络相机等。
第2章TMS320C6000DSP芯片概述
2.1 DSP芯片概述 DSP的主要生产厂商
➢ DSP芯片的生产厂家很多,类型多样,主要的产品如表2-1 所示
第2章TMS320C6000DSP芯片概述
2.1 DSP芯片概述 2.1.2 TI公司的DSP芯片
▪ TI公司是DSP芯片的主要生产厂家之一; ▪ 该公司研发出多款高性能的DSP产品,例如: ▪ 定点型DSP芯片C1x、C2x、C2xx、C5x、C54x和
第2章 TMS320C6000DSP芯片
概述
2020/11/25
第2章TMS320C6000DSP芯片概述
目录
第2章 TMS320C6000 DSP芯片概述
2.1 DSP芯片概述 2.1.1主要类型 2.1.2 TI公司的DSP芯片 2.1.3 TI公司DSP芯片的命名规则
2.2 TMS320DM642 DSP芯片概况 2.2.1 DM642概述 2.2.2 DMS642的器件特性 2.2.3 DM642原理框图 2.2.4 DM642的应用领域
C6x等; ▪ 浮点型DSP芯片C3x、C4x、C67x等; ▪ 多处理器型DSP芯片C8x等。 ▪ 从DSP芯片出现的先后顺序来看,TT公司的DSP产
第1章 TMS320C6000系列DSP概述
1.1 DSP产生、特点及其应用 1.2 TMS320C6000系列 DSP主要特点及其应用
1.1 DSP产生、特点及其应用
1.1.1 DSP的产生 DSP主要是以AMD2900,NEC7720以及TMS32010系列为代表,美国
德州仪器(TI)公司为DSP引入了许多的通用计算机微处理器特点,并为
1.1.3 DSP的应用
DSP芯片主要应用于以下方面: (1)信号处理——如数字滤波、自适应滤波、快速傅立叶变换、相关运算、 谱分析、卷积、模式匹配、加窗、波形产生等。 (2)通信——如调制解调器、自适应均衡、数据加密、数据压缩、回波抵消、 多路复用、传真、扩频通信、纠错编码、可视电话等。 (3)语音——如语音编码、语音合成、语音识别、语音邮件、语音存储等。 (4)图像/图形——如二维/三维图像处理、图形压缩/传输、图像增强、机器 人视觉技术等。 (5)军事——如保密通信、雷达处理、声纳处理、导航、导弹精确制导等。 (6)仪器仪表——如谱分析、锁相环、函数发生、地震处理等。 (7)自动控制——如引擎控制、声控、自动驾驶、机器人控制等。 (8)医疗——如助听器、超声设备、病人监护等。 (10)家用电器——如玩具/游戏、数字电话与数字电视、数码相机等。
1.2 TMS320C6000系列 DSP主要特点及其应用
下面列出几个具体应用场合: 共享调制解调器 无线本地环基站 远程访问服务器 数字用户回线系统 电缆调制器 多通道电话系统 面像和指纹识别的家庭安全系统 具有GPS导航的巡航控制系统 细微的医学诊断
波束形成基站
虚拟真实的3D图像 语音识别 音频 雷达系统 气象建模系统 有限元分析
1.2 TMS320C6000系列 DSP主要特点及其应用
c2000,c5000,c6000系列DSP编程方法
二、TI公司三大系列内部结构的简介 1、C2000系列的内部结构1,C2000系列基于改进的哈佛结构,支持分开的程序空间和数据空间。
还有第三个空间,即I/O空间,用于片外总线接口。
外设总线映射到数据空间,因此,运行在数据空间的所有指令,都可以运行于所有的外设寄存器。
C2000系列的CPU包括:一个32位的中心算术逻辑单元(CALU)、一个32位的累加器(ACC)、CALU具有输入和输出数据定标移位器、一个16x16位乘法器、一个乘积定标移位器、数据地址产生逻辑:包括8个辅助寄存器和1个辅助寄存器算术单元(ARAU)、程序地址产生单元C2000系列采用2xLPASIC核,其内部设有6组16位的数据与程序总线。
这6组总线是:PAB(ProgramAddr.Bus)程序地址总线DRAB(Data-ReadAddr.Bus)数据读地址总线; DWAB(Data-WriteAddr.Bus)数据写地址总线; PRDB(ProgramReadBus)程序读总线;DRDB(DataReadBus)数据读总线;DWEB(DataWriteBus)数据写总线。
将数据读地址总线(DRAB)和数据写地址总线(DWAB)分开,CPU就可以在同一个机器周期内读和写数据。
C2000系列具有以下类型的片内存储器:双访问RAM(DARAM),即一个机器周期内可以访问两次的存器;FlashEEPROM或工厂掩模的ROM。
C2000系列的存储器分为单独可选择的4个空间,总共的地址范围为224K字:程序存储器(64K字);局部数据存储器(32K字);全局数据存储器(64K字);输入/输出(64K字)。
2、C5000系列的内部结构C5000系列中央处理单元CPU包括算术逻辑单元、乘法器、累加器、移位寄存器、各种专门用途的寄存器、地址发生器、比较选择单元、指数编码器。
具体内容如下①先进的多总线结构,具有1条程序存储器数据总线、3条数据存储器数据总线和4条地址总线;②40位算术逻辑单元(ALU),包括40位的桶形移位寄存器和2个独立的40位的累加器;③17位乘17位的并行乘法器与一个40位的专用加法器结合在一起,用于单周期乘/累加操作;④比较、选择和存储单元(CSSU),用于Viterbi操作(一种通信的编码方式)中的加/比较选择;⑤指数编码器用于在单周期内计算40位累加器的指数值;⑥2个地址生成器,包括8个辅助寄存器和2个辅助寄存器算术单元[6]。
TI C6000系列DSP
第二章基于TI C6000系列DSP的C /C++程序优化技术2.1 TMS320C6000 处理器介绍TM S320C6000 是 TM S320 系列产品中的新一代高性能DSP 芯片,共分为两大系列。
其中定点系列为TM S320C62xx和TM S320C64xx;浮点系列为TM S320C67xx 。
由于 TM S320C6000 的开发主要面向数据密集型算法 ,它有着丰富的内部资源和强大的运算能力 ,所以被广泛地应用于数字通信和图像处理等领域。
C6000 系列 CPU 中的 8 个功能单元可以并行操作 ,并且其中两个功能单元为硬件乘法运算单元 ,大大地提高了乘法速度。
DSP 采用具有独立程序总线和数据总线的哈佛总线结构 ,仅片内程序总线宽度就可达到256 位 ,即每周期可并行执行 8 条 32 位指令;片内两套数据总线的宽度分别为 32 位; 此外 ,DSP 还有一套32 位DMA 专用总线用于传输。
灵活的总线结构使得数据瓶颈对系统性能的限制大大缓解。
C6000 的通用寄存器组能支持 32 位和 40 位定点数据操作 , 另外C67xx 和 C64xx 还分别支持 64 位双精度数据和 64 位双字定点数据操作。
除了多功能单元外 ,流水技术是提高 DSP 程序执行效率的另一主要手段。
由于TM S320C6000 的特殊结构 ,功能单元同时执行的各种操作可由VL IW 长指令分配模块来同步执行 ,使 8 条并行指令同时通过流水线的每个节拍 ,极大地提高了机器的吞吐量。
2.2 C6000 软件开发流程图 2-1为 C6000的软件开发流程图。
图中阴影部分是开发 C代码的常规流程 ,其他部分用于辅助和加速开发过程。
图2-1软件开发流程C/ C + +源文件首先经过C/ C + +编译器转换为 C6000汇编源代码。
编译器、优化器(optimizer)和交叠工具是 C/ C + +编译器的组成部分。
第2章 TMS320C6000系列的硬件结构-222
Cross Paths – 小结
n Data
n 目的寄存器需和功能单元在一侧. n 只能使用一次交叉通路从另外一侧读取操作
数. n 用 “x” 指示使用交叉通路.
n Address
n 指针必须和功能单元在一侧. n 数据可以对任何一侧进行数据读取. n 并行存取数据: 同时使用/同时不使用.
条件指令不使用 Cross Paths.
第2章 TMS320C6000系列的硬件结构
本章内容提要: 从芯片的设计角度出发,利用简单的汇编指令实现经典的
数字信号处理算法-点积运算,同时引出C6000DSP芯片 的结构。
n 2.1 C6000系列芯片中央处理器内核结构 n 2.2 CPU数据通路和控制 n 2.3 片内存储器 n 2.4 二级内部存储器 n 2.5 本章小结
2个寄存器组交叉通路(1x和 2x)
2个数据寻址通路(DA1和DA2)
2.2.1 数据通路的功能单元(结构)
n C64x的处理单元和数据通路
n 2个通用寄存器组(A和B),每组有32个寄存器;
n 8个功能单元(.L1,.L2,.S1,.S2,.M1,.M2,.D1,
和.D2);
n 2个数据读取通路(LD1和LD2),每侧有2个32位读
C64x的ST1包括ST1a和ST1b,支持64位存储。
2.2.3 数据地址交叉通路(限制)
(1) 指针必须与功能单元在同一侧 (2) 汇编语句内,数据通道(读数
据线LD、写数据线ST)以T1、 T2表示。在load和store指令的 汇编语句例,T1、T2和D1、D2 一起出现在功能单元区,说明
2.2 CPU数据通路和控制
n 2.2.1 数据通路的功能单元 n 2.2.2 寄存器交叉通路 n 2.2.3 存储器存取通路 n 2.2.4 数据地址通路
C6000 DSP
C6000 DSP概况近年来,以高速数字信号处理器(DSP)为基础的实时数字信号处理技术飞速发展,并获得了广泛的应用。
TMS320C6000系列DSP是德州仪器公司(TI)推出的定点、浮点系列DSP,其中定点产品峰值处理能力达到4800MIPS,浮点产品峰值处理能力达到1350MFLOPS,是目前国际上性能最高的DSP之一,其卓越的性能使得它在传统的DSP领域、雷达、无线电基站等高端领域,以及宽带媒体、身份识别等新兴领域都有很好的应用前景。
随着DSP性能和功能的不断增强,应用系统的设计越来越复杂,要将DSP的性能充分释放出来,合理的板级设计是DSP系统开发人员面临的一个关键性的问题。
TI公司的三种新型TMS320 DSP系列和OMAP系列1.TMS320C2000——作控制用的最佳DSP,可以替代老的C1X和C2X。
TMS320C20X系列DSP芯片具有如下特点:(1)处理能力强:指令周期最短是25nm,运算处理能力达40MIPS。
(2)片内具有较大的FLASH存储器:TMS320C20X是最早使用片内FLASH存储器的DSP芯片,FLASH存储器具有比ROM灵活、比RAM便宜的特点,TMS320F206和TMS320F207的片内具有32KB的FLASH存储器和4.5KB的RAM。
(3)芯片的功耗低:TMS320C20X 系列DSP芯片在5V工作时每个MIPS消耗1.9mA电流,在3.3V工作时每个MIPS消耗1.1mA电流4)芯片的资源配置灵活。
TMS320C2000系列DSP芯片价格低,具有较高额性能和适用于控制领域的功能,因此可以广泛地应用于工业自动化、电机控制、运动控制、电力电子、家用电器等领域.现在有趋势集中在以下两个方向上(1)C20X16位定点DSP,速度为20MIPS,主要用途是电话、数字相机、售货机等,其中:F206带有闪速存储器。
(2)C24X16位定点DSP,速度为20MIPS,用作数字马达控制、工业自动化、电力转换系统、空调等。
DPSc6000系列的基本特点
C6000系列DSP1.它的预算速度能够达到800MIPS,并拥有高效的C编译器。
2.C6000系列每个周期能够执行8条32为的指令,它的内核CPU由两个寄存器A和B组成,并且具有8个32位字长的功能单元,其中两个乘法器和六个算术逻辑运算单元(ALU)。
3.C6000系列的组要特点:指令打包功能:给定代码大小等效于8条指令,可以穿星火并行执行以减小代码的长度,减少程序的取指时间和系统的功耗。
所有指令有条件执行;支持40位的算术运算,能够为各种高强度计算和编码提供附加精度;C62X/ C64X/ C67X有32位的字节可寻址地址空间。
内部存储器(片上)分为独立的数据空间和程序空间。
DMA控制器,无需CPU参与就可以在存储器映射中的不同地址范围间传输数据,DMA控制器有四个可编程通道和一个辅助通道。
EDMA控制器,与DMA控制器的功能能相同,有16个可编程通道还有一个RAM空间为未来所需的传输保持多种配置。
4.通用寄存器组C6000有两组通用寄存器A和B。
C62x/C67x每个寄存器组有16个32位寄存器(A组A0~A15,B组B0~B15)。
这些通用寄存器可以当做数据、数据地址指针或条件寄存器使用。
C64x则有32个32位的通用寄存器(A组A0~A31,B组B0~B31)。
5.数据通路的功能能单元C6000系列数据通路的功能单元可以被分为两组,每组四个(.L1, .S1 . .M1 , .D1 , 和.L2, .S2 , .M2 , .D2),对应的功能相同。
他们分别执行特定的定点运算和浮点运算。
6.寄存器交叉通路每个功能单元直接对各自数据通路的寄存器进行读写。
即.L1, .S1, .M1,和.D1单元写入寄存器组A,.L2, .S2, .M2,和.D2单元写入寄存器组B。
寄存器组通过交叉通路1X和2X与另一个寄存器组的功能单元相连。
这两个交叉通路允许一个同路的功能单元访问另一个通路寄存器的32位操作数,其中通路A的功能单元通过交叉通路1X访问寄存器B的资源,通路B的功能单元通过交叉通路2X访问A的资源。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
TMS320C64xxCPU的数据通路
CPU数据通路与控制
功能单元
每个功能单元都有各自到 通用寄存器的读写端口, 其中2个32读端口,1个32 写端口。
.L1、.L2、.S1和.S2另有 8位读端口和写端口,支 持40位操作数的读写。
同一周期8个功能单元可 并行使用。
C64x 的.M 单元可以返回 64 位结果,所以它还多 了一个 32 位写端口。.M 单元 long dst 是 32 MSB, dst 是 32 LSB。
浮点操作
算术操作 数据类型转换操作: DP(双精度)→SP(单精度), INT(整型)→DP,INT→SP
32 位算术操作 32/40 位移位和 32 位位域操作
比较 倒数和倒数平方根操作 绝对值操作 SP→DP 数据类型转换
功能单元——执行的操作(黑体字为只有c64系列才有的功能)
功能单元 .S单元(.S1,.S2)
32位加、减、线性及循环寻址计算 带5位常数偏移量的字读取与存储 带15位常数偏移量的字读取与存储 (仅.D2) 带5位常数偏移量的双字读取与存储 无边界调节的字读取与存储 5位常数产生 32位逻辑操作
CPU数据通路与控制
功能单元
每个功能单元都有各自到 通用寄存器的读写端口, 其中2个32读端口,1个32 写端口。
.L1、.L2、.S1和.S2另有 8位读端口和写端口,支 持40位操作数的读写。
同一周期8个功能单元可 并行使用。
C64x 的.M 单元可以返回 64 位结果,所以它还多 了一个 32 位写端口。.M 单元long dst是32MSB ,dst是 32 LSB。
C6000系列CPU结构介绍
2 个对称的可进行数据处理的数据通路(A 和 B)
16个(C64x有32个)32位 通用寄存器
16个(C64x有32个)32位通 用寄存器
每个数据通路的4个功能单元有单一的 数据总线连接到 CPU 另一侧的寄存器上
4个功能单元 (.L、.S、.M和.D)
4个功能单元 (.L、.S、.M和.D)
CPU数据通路与控制
通用寄存器的作用
1、存放数据,作为指令的源操作数和目的操作数。 2、作为间接寻址的地址指针,其中用于循环寻址的寄存器为A4-A7和B4-
B7。 3、条件寄存器为A1,A2,B0,B1,B2,C64x中A0也可以用作条件寄存器。
通用寄存器组支持32位和40位定点数据,C67x和C64x也支持64位双精 度数据,32位数据可以存放在任一通用寄存器内,对于40位和64位 数据,需跨放在两个寄存器内。
TMS320C62xxCPU数据通路
功能单元——执行的操作(黑体字为只有c64系列才有的功能)
功能单元 .L单元(.L1 ,.L2)
.S单元(.S1,.S2)
定点操作
32/40 位算术和比较操作 32 位中最左边 1 或 0 的位数 计数 32 位和 40 位归一化操作 32 位逻辑操作 字节移位 数据打包/解包 5 位常数产生 双 16 位算术运算 4 个 8 位算术运算 双 16 位极小/极大运算 4 个 8 位极小/极大运算
数据通路A
数据通路B
CPU数据通路与控制
TMS320C64XX CPU数据通路
CPU数据通路与控制
TMS320C62XX CPU数据通路
CPU数据通路与控制
TMS320C67XX CPU数据通路
CPU数据通路与控制
C62xx、C67xx和C64xx有类似的数据通道都包括:
2 个通用寄存器组(A 和 B) 8 个功能单元(.L1、.L2、.S1、.S2、.M1、.M2、.D1 和.D2) 2 个数据读取通路(LD1 和 LD2) C64xx 和 C67xx 每侧有 2 个 32 位读取总线,C62xx 每侧只有 1 个 32 位读取总线。 2 个数据存储通路(ST1 和 ST2) C64xx 每侧有 2 个 32 位存储 总线, C62x/C67x 每侧只有 1 个 32 位存储总线。 2 个寄存器组交叉通路(1X 和 2X) 2 个数据寻址通路(DA1 和 DA2)
功能单元——执行的操作(红色字体为只有c64系列才有的功能)
功能单元 .M单元(.M1,.M2)源自.D单元(.D1,.D2)
定点操作
浮点操作
16×32 乘法操作 4 个 8×8 乘法操作 双 16×16 乘法操作 双 16×16 带加/减运算的乘法操 作 4 个 8×8 带加法运算的乘法操作 位扩展 位交互组合与解位交互组合 变量移位操作 旋转 Galois 域乘法
TMS320C62XX/C64XX/C67XX结构框图
C6000系列CPU结构介绍
程序执行机构包括
1) 2 个对称数据通路A 和 B,每组数据通路有读入及存储(写出)数 据总线与片内数据存储器相连。
2) 2 个对称的通用寄存器组 3) 2组对称的功能单元(每组 4 个) 4) 控制寄存器组和控制逻辑以及中断逻辑等
C6000系列DSP的CPU结构概述
学习内容
TMS320C6000简介 C6000系列CPU结构介绍 CPU数据通路与控制 TMS320C6000公共指令集概述
TMS320C6000简介
美国TI公司发布的DSP芯片TMS320C6000 包括 TMS320C62xx和 TMS320C64xx两个定点系列和 TMS320C67xx 浮点系列,二个系列相互兼容。 C6000系列DSP主要特点:
1)采用了VelociTI甚长指令字(VLIW,Very Long Instruction Word)结构,可以单周期发射多条指令, 实现很高的指令级并行效率。 2)统一的开发工具 3)管脚和代码兼容
C6000系列CPU结构介绍
图中阴影部分为 CPU,它包括: 1、 程序读入及指令 译码、 分配机构 2、程序执行机构 3、芯片测试和仿真 端口及其控制逻辑。
定点操作
浮点操作
32 位逻辑操作 转移 常数产生 寄存器与控制寄存器数据传递(仅.S2) 字节移位 数据打包/解包 双 16 位比较操作 4 个 8 位比较操作 双 16 位移位操作 双 16 位带饱和的算术运算 4 个 8 位带饱和的算术运算
.M单元(.M1,.M2)
16×16 乘法操作
32×32 乘法操作 浮点乘法操作