基于流水线结构的浮点加法器IP核设计

合集下载

基于FPGA的全流水浮点乘累加器的设计及实现

基于FPGA的全流水浮点乘累加器的设计及实现作者：李世平陈铠来源：《电子技术与软件工程》2016年第02期摘要为提升浮点乘累加的流水性能，本文提出了一种基于FPGA全流水浮点乘累加器的设计和实现方法。

通过无阻赛流水累加和串形全加等技术，实现了任意长度单精度浮点复向量的乘累加计算，且相邻两个向量之间无流水间隙。

该累加器在Xilinx的XC7VX690T FPGA上实现，乘法器和逻辑资源消耗不到1%，最高运行频率可达279MHz。

【关键词】FPGA 浮点乘累加全流水1 引言随着半导体技术的不断发展，FPGA的功能和性能显著提升，正逐渐成为雷达、通信等诸多领域数字系统设计的重点，通常被用做复杂信号处理算法的硬件加速。

浮点乘累加作为信号处理算法中的常用基本单元，在矩阵乘、矩阵协方差、FIR等计算过程中都有着广泛应用。

传统累加器是通过将加法器的输出反馈到输入端来实现，对于浮点运算而言，由于浮点加法计算较复杂，需要经历对阶、尾数运算、结果规格化、舍入处理和溢出判断五个步骤，一般会有7～14级的流水延迟，进而会导致流水线阻塞，因此需要研究采用合理的累加结构来提高流水性能。

Ling Zhuo等人提出了一种面向矩阵运算的流水累加结构，提高了流水性能，但该结构控制机制复杂，且缓存资源消耗大，正比于流水延迟量的平方；袁松等人采用了分级流水线方法，缓存消耗较小，但在中小规模矩阵累加时会出现流水线暂停，而且输出时延较大，与矩阵总数据个数成正比。

本文提出了一种基于FPGA的全流水浮点乘累加器结构，能够实时完成任意长度单精度浮点复向量的乘累加计算，且相邻两个向量之间无流水间隙，该累加器在Xilinx的XC7VX690T FPGA上实现，乘法器和逻辑资源消耗不到1%，最高运行频率可达279MHz，目前已成功在矩阵协方差、求逆等算法实现过程中推广应用。

2 方案设计基于FPGA的全流水乘累加器结构如图1所示。

A和B为两个等长度的浮点向量，valid 表示输入数据有效，last表示当前处理向量的最后一个数据；Q为输出累加结果，Qvalid为累加结果的有效标志。

32位浮点加法器设计

32位浮点加法器设计一、基本原理浮点数加法运算是在指数和尾数两个部分进行的。

浮点数一般采用IEEE754标准表示，其中尾数部分采用规格化表示。

浮点加法的基本原理是将两个浮点数的尾数对齐并进行加法运算，再进行规格化处理。

在加法运算过程中，还需考虑符号位、指数溢出、尾数对齐等特殊情况。

二、设计方案1. 硬件实现方案：采用组合逻辑电路实现浮点加法器，以保证运算速度和实时性。

采用Kogge-Stone并行加法器、冒泡排序等技术，提高运算效率。

2.数据输入：设计32位浮点加法器，需要提供两个浮点数的输入端口，包括符号位、指数位和尾数位。

3.数据输出：设计32位浮点加法器的输出端口，输出相加后的结果，包括符号位、指数位和尾数位。

4.控制信号：设计合适的控制信号，用于实现指数对齐、尾数对齐、规格化等操作。

5.流程控制：设计合理的流程控制，对各个部分进行并行和串行处理，提高加法器的效率。

三、关键技术1. Kogge-Stone并行加法器：采用Kogge-Stone并行加法器可以实现多位数的并行加法运算，提高运算效率。

2.浮点数尾数对齐：设计浮点加法器需要考虑浮点数尾数的对齐问题，根据指数大小进行右移或左移操作。

3.溢出判断和处理：浮点加法器需要判断浮点数的指数是否溢出，若溢出需要进行调整和规格化。

4.符号位处理：设计浮点加法器需要考虑符号位的处理，确定加法结果的符号。

四、性能评价性能评价是衡量浮点加法器设计好坏的重要指标。

主要从以下几个方面进行评价：1.精度：通过与软件仿真结果进行比较，评估加法器的运算精度，误差较小的加法器意味着更高的性能。

2.速度：评估加法器的运行速度，主要考虑延迟和吞吐量。

延迟越低，意味着加法器能够更快地输出结果；吞吐量越高，意味着加法器能够更快地处理多个浮点加法运算。

3.功耗：评估加法器的功耗情况，低功耗设计有助于提高整个系统的能效。

4.面积：评估加法器的硬件资源占用情况，面积越小意味着设计更紧凑，可用于片上集成、嵌入式系统等场景。

基于FPGA的浮点运算器IP核的设计与实现

基于FPGA的浮点运算器IP核的设计与实现摘要
本文介绍了基于FPGA的浮点运算器IP核的设计与实现。

在实现过程中，我们采用Verilog HDL实现了一个32位浮点运算器的IP核，它能提
供执行加法、减法、乘法、除法以及规范化的功能，并具有很高的精确度。

在Xilinx FPGAs上实现，该IP核实现了高性能和可靠性。

实验结果表明，这种FPGA浮点运算器IP核的性能可以满足各种应用需求。

关键词：FPGA；浮点运算；IP核；Verilog HDL
1. Introduction
随着技术的发展，浮点运算在计算机体系结构中越来越重要。

它不仅
可以提高运算精度，而且可以准确表达计算机的结果。

为了实现高质量的
数字信号处理（DSP）系统，FPGA浮点运算器IP核变得越来越重要。

FPGA的浮点运算器IP核提供了一个高性能、可靠的实现环境，使得
浮点运算器在DSP系统中得以良好的应用。

此外，基于FPGA的浮点运算
器IP核还具有可编程性、低功率、灵活性和低成本等优势。

本文讨论了使用Verilog HDL实现基于FPGA的浮点运算器IP核的设
计与实现。

它包括浮点运算器的功能、实现及性能等方面的介绍。

2. Design and Implementation of FPGA Floating Point Unit
2.1 Floating Point Unit Design
在本文中，我们采用Verilog HDL实现了一个具有32位数据宽度的
浮点运算器IP核。

此外，它还具有加法、减法、乘法、除法以及规范化
的功能。

浮点加法器IP核的VHDL设计

１装载：）比较ＡＢ的指数域ｅ，，、１ｅ并把ＡＢ别装载２、分
到两个寄存器ＲｇｅＡ和ＲｇｅＢ中，出现非规格化加数（ｅ若ｄ—
ｎｒｌｕｅｓ，ｏｍａｎｍｂｒ）将其规格化。
２移位：）计算差值ｄ一ｅｉ将指数小的浮点加数＝ｉｅ２，１
（）Ｎａ不是一个数）ｅ５／０７且，０则Ｖ＝５Ｎ（：＝２５２４， ≠ ，
ＮａＮ。
１２浮点数加法运算规则．
Ｓｅ３：］ｌ０２３
２２３２
ｆ２０［：］２
０
满足速度上的要求，浮点加法器体系结构采用多周期５级流水线方式，图２如。根据运算规则把完成一次浮点数加法分
成５步骤：载（ｏｄ、位（ｈｆ）相加（ｄ）规格化个装１ａ）移ｓｉ、ｔａｄ、
的尾数右移ｄ位，使得Ａ、Ｂ具有相同的指数，出的位保存移在尾数的扩展位，以提高运算精度。３相加：Ａ、）将Ｂ的尾数转换成２的补码的形式，并相
加。
４）规格化：结果规格化使尾数格式为１ｆ，。找出高位第
一
１ＩＥ５浮点数标准与浮点数加法的运算规则ＥＥ７４
１）×２ ×１ｆ．。
图２多周期５级流水线的浮点加法器结构
（）（，）如果ｅ２＋０一０：：０且，＝０贝＝（） ×０，０一１。
（）非规格化数：＝０但ｆ￣，Ｖ为非规格化数。３ｅ，ｓ０则：

参数化可配置IP核浮点运算器的设计与实现(精)

参数化可配置IP核浮点运算器的设计与实现参数化可配置技术是指在集成开发环境下，利用设计中的可配置资源，根据需求重新配置一个运算系统，以实现兼顾高性能硬件设计和可配置特征的系统，即成为参数化可配置运算系统。

参数化可配置系统的原理是：通过对参数可配置元件的利用，将硬件系统由专门的电路设计转变成为功能模块的组装，因此具有灵活、高效、低耗、易于开发与升级等特性。

在混沌电路、信号及图像处理中有大量的浮点数加、减、乘、除操作，浮点数本身的复杂性决定其需要专用的硬件来实现[1]。

传统硬件电路的实现依靠手工搭建，过程复杂，存在电路参数分布性大、元器件老化、易受温度影响及通用性差等问题，尤其是对网格状多涡卷混沌吸引子的电路设计和调试需要花费更多时间。

此外，要求电路设计者要有较高的技巧和经验[2]。

基于IP核模块的设计方法是采用IP核模块而不是采用基本逻辑或电路单元作为基础单元，是以功能组装代替功能设计，用户只需通过设置参数即可方便地按需要定制自己的宏功能模块。

使用户可以将精力集中于系统顶层及关键功能模块的设计上，致力于提高产品整体性能和个性化特性，加快了芯片设计速度，提高了芯片设计能力。

此外，IP核通常要经过严格的测试和优化，并且已经封装完毕,利用IP 核进行电路设计可以在FPGA等可编程逻辑器件中达到最优的性能和最低的逻辑资源使用率，以保证电路的性能和质量。

基于参数可配置IP核的浮点运算器的设计可大大提高混沌电路及其他电路设计者的电路设计能力，有力推动了混沌电路在相关领域的应用。

1 参数化IP核IP核的本质特征之一是可重用性，在不同的应用场合对IP核功能、性能、面积及功耗等要求也不同，这就要求IP核具有较好的可伸缩性和灵活性。

为了使IP核在使用中具有更好的灵活性和可配置性，IP核应该被设置为参数化可配置的。

根据参数配置时机的不同，参数化IP核的配置参数可分为静态参数和动态参数[3]。

(1)静态参数：静态参数是指在系统运行前，一次性将参数化IP核的参数配置为系统所需的某个或数个功能，这些配置好的功能，在系统运行期间不会改变，直到系统完成任务后,参数化IP核才配置成为其他功能去完成其他任务。

一种深度流水线的浮点加法器

司的ＳｒｔＩ系列芯片，级流水线可以达到３６ＭＨｚｔｉＩａｘ８５以上的速度．
关键词：浮点加法器；ＰＡ流水线；ＦＧ；吞吐量
中图分类号：Ｎ３．Ｔ４１２
文献标识码：Ａ
文章编号：ｏ５９９（ｏ７Ｏ－９ｏｌｏ－４Ｏ２ｏ）３ｏ儿－４
ｂｔｄｘｏｒｔｎａｄｍａｔｓｐｒｔｎ，ｄｉｏｄｓｂｒｃｉｎｗｅｅｓｐｒｔｐｒｓｐｅｎｅＦｏｉ— ｏｈｉｅｐａｉｎｉａｏａｉｎｅｏｎｓｅｏａｄｔｎａｕｔｔｒｅａａｅａａｔｉｎａｏｄｗａｒｓｔｄｅｒｓｎ
．
ｇｅｐｅｉｏ３ｉ）ｐｒｔｎｗｅｓｔｒ ’ ＳｒｔＩｆｍｉｈ，ａｈｅｅｒｕｈｕｔｓｎｒｔａ５ｌｒｓｎ（２ｂｔｏａｉ，ｅＡｌａＳｔｉＩａｌｃｉｃｉｄｔｏｇｐｔａｅｏｅｈｎ３６ｃｉｓｅｏｕｄｅａｘｙｐｖｈｒｒ
ＳＨＡＯＪｉ，ＵｎｌｎＹＵｎｃｅｇｅＷａ —ｅｇ．Ｈａ —ｈｎ
（ｏｌｇｆＩｆｒｔｎＳｉｃｎｅｈｏｏｙ，ｎｉｇＵｎｖｒｉｆｒｎｕｉＣｌｅｎｏｍａｉｃｎｅｄＴｃｎｌｇＮａｊｎｉｅｓｙｏＡｅｏａｔｓ＆Ａｓ０ “ｉ５ｅｏｏｅａｔｃｔｍｔ，ｒｃ＂１０６Ｃ ∞ ）ｇ２０１
ＭＨｚｂｉｈ－ｔｇｅｐｙｐｐｌｉ．ｙｅｇｔａｅｄｅｌｉｅｉｕｓｎｇＫｅｏｄ：ｌａｉｇｐｉｔａｄｒＰＧＡ；ｐｐｌｉｇｈｏｇｐｔｙｗｒｓｆｏｔｎ－ｏｎｄｅ；Ｆｉｅｉｎ；ｔｒｕｈｕｎ

基于FPGA的浮点运算器IP核的设计与实现

基于FPGA的浮点运算器IP核的设计与实现摘要浮点运算作为数字信号处理的最基本的运算，具备动态范围大的特点，不仅成为衡量微处理器性能的主要指标之一，而且广泛适用于复杂的数学计算、科学应用和工程设计中，随着多媒体技术的蓬勃发展，浮点运算单元的应用范围越来越广泛，它已经走入了千家万户，用来解决复杂的数字图像处理，移动物体模型的建立，三维动画设计与演示等等。

随着FPGA的出现以及EDA技术的成熟，采用FPGA实现数字信号处理的方法已经显示出巨大的潜力，利用FPGA技术设计浮点乘法器可以缩短产品的开发周期。

本设计提出了一种基于VHDL语言的浮点乘法器的硬件实现方法，就是用VHDL 语言描述设计文件和原理图方式设计，以Altera公司的Cyclone系列产品为硬件平台，以Quartus为软件工具进行模拟仿真，实现了任意以IEEE754标准表示的23位单精度浮点数的乘法运算。

设计中对阶码的溢出进行了研究并进行了处理，同时对结果进行了规格化处理，通过利用FPGA在线可编程的技术，设计出的浮点乘法器更加方便灵活，克服了专用乘法器的不足，更能广泛的应用到各个领域。

关键词：IEEE754，单精度浮点数，乘法器，硬件描述语言，FPGA，QuartusTHE DESIGN AND IMPLEMENTATION OF FLOATING-POINT UNIT IP CORE BASED ON FPGAABSTRACTAs the most basic operation of digital signal processing, floating-point calculation is equipped with the characteristic of dynamic range, it is not only the main measure of microprocessor performance indexes, but also is widely used in complex mathematical calculation, science applications and engineering design. with the vigorous development of multimedia technology, floating point arithmetic unit has been widely used, and it has come home, been used to solve complex problems, such as digital image processing, the establishment of the moving object model, 3-d animation design and demonstrate, etc. With the maturity of FPGA presence and EDA technology, it has shown great potential to realize digital signal processing by the method of using FPGA, it can cut short the development cycle by using the FPGA technology design floating-point on time-multiplier. The design is proposed based on VHDL language of floating on time-multiplier, the hardware realization method is described with VHDL language schematic design documents and Altera design, by the way the Cyclone series products for hardware platform, with Quartus for software tools for simulation,it realized any twenty-three single precision floating-point multiplication which is in the IEEE754 standard. Design of order yards was studied and spill the processing, and the results are the normalized processing, by using the on-line programmable FPGA technology, design the floating-point greater flexibility on time-multiplier, overcome the deficiency of special on time-multiplier, more can widely used in various fields.KEY WORDS：IEEE754，float，multiplier unit，VHDL，FPGA，Quartus目录前言 (1)第1章绪论 (3)§1.1 引言 (3)§1.2 浮点数的格式 (3)§1.2.1 一般浮点数表示方法 (3)§1.2.2 IEEE754标准表示的浮点数 (4)§1.2.3 浮点数的规格化 (5)§1.2.4 特殊浮点数 (5)§1.3 浮点乘法器的原理 (6)第2章EDA工具介绍 (8)§2.1 EDA技术及其发展 (8)§2.2 EDA设计流程及其工具 (8)§2.2.1 设计流程 (8)§2.2.2 HDL简介 (10)§2.2.3 Quartus II简介 (10)第3章整体框架设计及功能模块介绍 (11)§3.1 设计思路 (11)§3.2 预处理模块 (11)§3.3 定点乘法器 (12)§3.3.1 IEEE754舍入模式 (12)§3.3.2 定点乘法器原理 (13)§3.3.3 定点乘法器模块 (13)§3.4 计算尾数模块 (15)§3.5 计算阶码及溢出处理 (16)§3.5.1 定点加减法原理 (16)§3.5.2 溢出概念与检测方法 (17)§3.5.3 阶码运算原理 (18)§3.5.4 补码模块 (18)§3.5.5 阶码相加模块 (19)§3.5.6 溢出模块 (20)§3.6 数据显示模块 (21)§3.6.1 数据模块 (21)§3.6.2 显示模块 (22)第4章仿真结果及实验验证 (24)§4.1 顶层原理图 (24)§4.2 顶层仿真 (25)§4.2.1 一般情况 (25)§4.2.2 特殊情况 (25)§4.2.3 显示情况 (26)§4.3 引脚锁定 (26)§4.4 硬件平台 (27)§4.4.1 FPGA简介 (27)§4.4.2 芯片选择 (28)§4.5 下载验证 (28)结论 (30)参考文献 (31)致谢 (33)附录 (34)前言21世纪是信息化的时代，信息产业已经成为衡量一个国家经济科技实力的重要标志，集成电路则是信息技术与信息产业的基础，是电子信息产业的命脉。

基于FPGA的浮点运算器IP核的设计与实现

基于FPGA的浮点运算器IP核的设计与实现基于现场可编程门阵列（FPGA）的浮点运算器，是一种专门设计用于实现浮点数运算的IP核。

浮点运算器在科学计算、数字信号处理（DSP）、图像处理等领域中具有广泛的应用。

本文将探讨基于FPGA的浮点运算器IP核的设计与实现。

首先，我们需要确定浮点运算器的功能要求和性能指标。

常见的浮点运算器包括加法器、乘法器和除法器，它们能够进行浮点数的加法、乘法和除法运算。

浮点运算器的性能指标包括浮点数位数、运算精度、时钟频率、吞吐量、功耗等。

然后，我们可以选择合适的FPGA芯片进行设计。

不同的FPGA芯片具有不同的资源和性能特点，我们需要根据浮点运算器的功能需求和性能指标，选择具备足够资源和性能的FPGA芯片。

接下来，我们需要进行浮点运算器的架构设计。

浮点运算器的架构通常分为两个主要部分：浮点数运算单元和控制单元。

浮点数运算单元包括加法器、乘法器和除法器，它们实现具体的浮点数运算操作。

控制单元用于控制浮点数运算的流程和时序。

在浮点数运算单元的设计中，我们需要选择合适的浮点数格式。

常见的浮点数格式有IEEE754和自定义浮点数格式。

IEEE754浮点数格式是最常用的浮点数表示方法，它包括单精度浮点数（32位）、双精度浮点数（64位）和扩展精度浮点数（80位）。

自定义浮点数格式可以根据具体应用需求设计，例如定点数格式、定点数加浮点数格式等。

浮点运算器的设计可以采用各种硬件实现方法，如组合逻辑电路、查找表、乘法器阵列和流水线等。

我们需要根据浮点数运算的复杂度和性能要求选择合适的实现方法。

对于较复杂的浮点数运算，可以采用流水线架构来实现并发计算，提高性能和吞吐量。

在控制单元的设计中，我们需要确定浮点数运算的流程和时序。

控制单元可以采用状态机的方式实现，它根据具体的浮点数运算操作，生成相应的控制信号，控制浮点数运算单元的工作状态和时序。

最后，我们需要进行浮点运算器的验证和测试。

验证和测试是设计中非常重要的环节，它可以帮助我们发现并修复设计中的错误和缺陷。

上海大学verilog设计32位浮点加法器设计

32位浮点加法器设计摘要：浮点数具有数值范围大，表示格式不受限制的特点，因此浮点数的应用是非常广泛的。

浮点数加法运算比较复杂，算法很多，但是为了提高运算速度，大部分均是基于流水线的设计结构。

本文介绍了基于IEE754标准的用Verilog 语言设计的32位浮点加法器，能够实现32位浮点数的加法运算。

虽然未采用流水线的设计结构但是仍然对流水线结构做了比较详细的介绍。

关键字：浮点数，流水线，32位浮点数加法运算，Verilog 语言设计32-bit floating point adder designCao Chi,Shen Jia- qi,Zheng Yun-jia(School of Mechatronic Engineering and Automation, Shanghai University, Shanghai ,China ) Abstract://沈佳琪搞定Key words ：float; Assembly line; 32-bit floating-point adder 浮点数的应用非常广泛，无论是在计算机还是微处理器中都离不开浮点数。

但是浮点数的加法运算规则比较复杂不易理解掌握，而且按照传统的运算方法，运算速度较慢。

因此，浮点加法器的设计采用了流水线的设计方法。

32位浮点数运算的摄入处理采用了IEE754标准的“0舍1入”法。

1. 浮点数的介绍在处理器中，数据不仅有符号，而且经常含有小数，即既有整数部分又有小数部分。

根据小数点位置是否固定，数的表示方法分为定点表示和浮点表示。

浮点数就是用浮点表示法表示的实数。

浮点数扩大了数的表示范围和精度。

浮点数由阶符、阶码E 、数符、尾数N 构成。

任意一个二进制数N 总可以表示成如下形式：N=。

通常规定：二进制浮点数，其尾数数字部分原码的最高位为1，叫作规格化表示法。

因此，扩大数的表示范围，就增加阶码的位数，要提高精度，就增加尾数的位数。

四级流水线数字信号处理器核的设计

processor, and is also of reference value to the design of the float operation components.KEY WORDS: DSP, data path, floating-point, Two-Path Algorithm, Booth algorithm, Wallace tree, shift register5图片目录图 1 DSP 30年来规模、RAM、速度的变化 (3)图 2 DSP 30年来工艺、价格、功耗的变化 (4)图 3 Walkie-Talkie项目整体框图 (8)图 4 DSP核在Walkie-Talkie项目中具体工作描述 (9)图 5 DSP内核基本结构 (10)图 6 MAC各个子模块之间连接关系图 (11)图7 Booth乘法器结构 (13)图8 4-2压缩器电路结构 (14)图9 Wallace树结构 (14)图10 基-4Booth乘法器电路 (15)图11 ALU各个子模块之间连接关系 (15)图12 进位选择加法器框图 (16)图13 进位选择加法器电路图 (17)图14 DIVS操作框图 (18)图15 DIVQ操作框图 (18)图16 移位器结构框图 (19)图17 DSP堆栈关系图 (21)图18 PC堆栈电路结构图 (22)图19 计算单元寄存器阵列结构 (23)图20 程序跳转指令 (25)图21 定时器结构框图 (26)图22 中断控制器 (27)图23 标准的HDL验证流程 (28)图24 软硬件协同仿真过程 (30)图25 IIR滤波器结构框图 (31)图26 matlab与DSP仿真输出结果比较 (35)图27 分支跳转指令集仿真结果1 (43)图28 分支跳转指令集仿真结果2 (43)8图29 改进后的PC堆栈电路 (44)图30 FPGA逻辑单元内部结构图 (45)图31 DSP核FPGA验证系统框图 (47)图 32 Synplify综合结果 (48)图33 Quartus II 布局布线结果 (49)9表格目录表 1 基4 Booth 编码真值表 (12)表 2 程序跳转时流水线操作 (24)表 3 芯片实测性能与设计值比较 (49)10符号说明DSP Digital Signal ProcessingSOC System On Chip 片上系统PropertyIP Intellectual寄存器传输级LevelRTL RegisterTransferModulationFM FrequencyAmplifierNoiseLNA LowADC Analog to Digital ConverterDAC Digital to Analog ConverterAmplifierPA PowerFrequencyRF RadiosaveAdderCSA CarryFIR Filter Finite Impulse Response FilterIIR Filter Infinite Impulse Response FilterMemoryAccessRAM RandomROM Read Only MemoryMCU Micro Control UnitMPU Micro Processing UnitAddressGeneratorDAG DataPLI Programming Language InterfaceAddressMemoryPMA ProgramPMD Program Memory DataAddressMemoryDMA DataMemoryAddressDMD DataMAC Multiply-AccumulateASIP Application-Specific Instruction-set ProcessorsAnalysisSTA StaticTimingRSSI Received Signal Strength IndicatorSNR Signal Noise Ratio 信噪比CTCSS Continuous Tone Controlled Squelch System 连续音频编11码静噪系统DCS Digital Coded Squelch 数字亚音Frequency中频IF IntermediateSPI Serial Peripheral InterfaceTransform FFT FastFourier12241引言1.1数字信号处理器概述数字信号处理芯片是专为信号处理而设计的，是解决实时处理要求的单片可编程微处理器芯片。

高速流水线浮点加法器的FPGA实现

高速流水线浮点加法器的FPGA实现
0 引言
现代信号处理技术通常都需要进行大量高速浮点运算。

由于浮点数系统
操作比较复杂，需要专用硬件来完成相关的操作(在浮点运算中的浮点加法运算
几乎占到全部运算操作的一半以上)，所以，浮点加法器是现代信号处理系统中
最重要的部件之一。

FPGA 是当前数字电路研究开发的一种重要实现形式，它
与全定制ASIC 电路相比，具有开发周期短、成本低等优点。

但多数FPGA 不
支持浮点运算，这使FPGA 在数值计算、数据分析和信号处理等方面受到了限制，由于FPGA 中关于浮点数的运算只能自行设计，因此，研究浮点加法运算
的FPGA 实现方法很有必要。

1 IEEE 754 单精度浮点数标准
浮点数可以在更大的动态范围内提供更高的精度，通常，当定点数受其
精度和动态范围所限不能胜任时，浮点数标准则能够提供良好的解决方案。

IEEE 协会制定的二进制浮点数标准的基本格式是32 位宽(单精度)和64
位宽(双精度)，本文采用单精度格式。

图1 所示是IEEE754 单精度浮点数格式。

图中，用于单精度的32 位二进制数可分为三个独立的部分，其中第0 位到22
位构成尾数，第23 位到第30 位构成指数，第31 位是符号位。

实际上，上述格式的单精度浮点数的数值可表示为：
上式中，当其为正数时，S 为0；当其为负数时，S 为1；(-1)s 表示符号。

指数E 是ON255 的变量，E 减127 可使指数在2-127 到2128 变化。

尾数采用科学计算法表示：M=1．m22m21m20……m0。

m22，m21，…，m0，mi 为Mp。

浮点运算流水线

浮点运算流水线计算机的流水处理过程同工厂中的流水装配线类似。

为了实现流水,首先必须把输入的任务分割为一系列的子任务,使各子任务能在流水线的各个阶段并发地执行。

将任务连续不断地输入流水线,从而实现了子任务的并行。

因此流水处理大幅度地改善了计算机的系统性能,是在计算机上实现时间并行性的一种非常经济的方法。

在流水线中,原则上要求各个阶段的处理时间都相同。

若某一阶段的处理时间较长,势必造成其他阶段的空转等待。

因此对子任务的划分,是决定流水线性能的一个关键因素,它取决于操作部分的效率、所期望的处理速度,以及成本价格等等。

假定作业T 被分成 k 个子任务,可表达为T＝{T1,T2,···,T k}各个子任务之间有一定的优先关系：若i<j,则必须在 T i完成以后,T j才能开始工作。

具有这种线性优先关系的流水线称为线性流水线。

线性流水线处理的硬件基本结构如图所示。

图中,处理一个子任务的过程为过程段(S i)。

线性流水线由一系列串联的过程段组成,各个过程之间设有高速的缓冲寄存器(L),以暂时保存上一过程子任务处理的结果。

在一个统一的时钟(C)控制下,数据从一个过程段流向相邻的过程段。

设过程段 S i所需的时间为τi,缓冲寄存器的延时为τl,线性流水线的时钟周期定义为(2.44)故流水线处理的频率为 f＝1/τ。

在流水线处理中,当任务饱满时,任务源源不断的输入流水线,不论有多少级过程段,每隔一个时钟周期都能输出一个任务。

从理论上说,一个具有k 级过程段的流水线处理n 个任务需要的时钟周期数为(2.45)其中k个时钟周期用于处理第一个任务。

k个周期后,流水线被装满,剩余的n－1个任务只需n－1个周期就完成了。

如果用非流水线的硬件来处理这n个任务,时间上只能串行进行,则所需时钟周期数为T L＝n·k(2.46)我们将T L和T k的比值定义为k级线性流水线的加速比：(2.47)当 n>>k 时, C k－>k 。

浮点加法器IP核的VHDL设计

浮点加法器IP核的VHDL设计
何清平;刘佐濂;林少伟
【期刊名称】《山西电子技术》
【年(卷),期】2006(0)4
【摘要】浮点数加法运算是浮点运算中使用频率最高的运算.结合VHDL和FPGA 可编程技术,完成具有5级流水线结构、符合IEEE 754浮点数标准、可参数化为单/双精度的浮点数加法器IP核的VHDL设计.
【总页数】3页(P34-35,83)
【作者】何清平;刘佐濂;林少伟
【作者单位】广东工业大学信息工程学院,广东,广州,510006;广州大学物理与电子工程学院,广东,广州,510006;广州大学物理与电子工程学院,广东,广州,510006【正文语种】中文
【中图分类】TP332
【相关文献】
1.基于Xilinx FPGA IP核的浮点频域脉冲压缩算法的设计与实现 [J], 邢冠培;孟凡利
2.基于Xilinx FPGA IP核的浮点频域脉冲压缩算法的设计与实现 [J], 邢冠培;孟凡利
3.浮点加法器的VHDL算法设计 [J], 吴琼;肖梓祥
4.并行可配置浮点矩阵乘法IP核设计 [J], 乔瑞秀;鲁华祥;龚国良;陈刚
5.基于流水线结构的浮点加法器IP核设计 [J], 夏杰;宣志斌;薛忠杰
因版权原因，仅展示原文概要，查看原文内容请购买。

一种基于FPGA的流水线8051 IP核的设计与实现

一种基于FPGA的流水线8051 IP核的设计与实现王发栋;杜慧玲;史翔【期刊名称】《现代电子技术》【年(卷),期】2014(000)005【摘要】A design scheme of IP Core of 8051MCU based on FPGA is proposed,which is compatible with standard 8051MCU in instruction. Using decoding - perform two pipeline stages structure,it passed through the simulation and synthesis. The theoretical speed has 6 to 10 times increasing than traditional 8051MCU. For the complexity of CISC pipeline design,an effi-cient realization is proposed,which can make the execution structure operating nearly in full state. The three kinds of conflicts which traditional pipeline must face to is solved simply and effectively. The design is described by Verilog HDL,and verified with ModelsimSE 6.2 simulator. Finally the code is downloaded into Xilinx FPGA chip to make physical test. The results of LED light water experiment show that the core achieves the expected goal.%给出一种基于FPGA的8051MCU的IP核设计方案，指令集与标准8051系列处理器完全兼容。

基于IP核的FPGA FFT 算法模块的设计与实现

基于IP核的FPGA FFT算法模块的设计与实现作者：窦秀梅，赵振纲， DOU Xiu-mei， ZHAO Zhen-gang作者单位：北京邮电大学,信息工程学院,北京,100876刊名：无线电工程英文刊名：RADIO ENGINEERING OF CHINA年，卷(期)：2008，38(8)被引用次数：1次1.胡广书数字信号处理--理论、算法与实现 20032.李洪伟.袁斯华基于Quartus II的FPGA/CPLD设计 20063.褚振勇.翁木云FPGA设计及应用 20024.李伟.孙进平.王俊一种基于FPGA的超高速32K点FFT处理器[期刊论文]-北京航空航天大学学报 2007(12)5.方洁.张可.王睿改进的FFT算法及应用研究[期刊论文]-四川电力技术 2007(06)1.学位论文杨兴FFT IP核设计及其可测性设计的研究2008随着集成电路技术的发展，电路的集成度和复杂度越来越大，随之带来诸如测试等一系列问题。

可测性设计是指在电路设计的同时考虑测试问题，已成为集成电路设计重要的组成部分。

本文设计了基2DIT—FFT算法的IP软核，选择顺序处理的方式作为IP核的设计结构，并在设计之中对部分电路进行了可测性设计。

采用自项向下的设计方法对整个FFTIP核进行模块划分，用VHDL硬件描述语言对各个模块编程，并在QuartusⅡ软件环境下进行综合仿真，通过设计结果和Matlab计算的理论结果比较基本相符，验证了设计的正确性。

在设计的过程中，以八位行波进位加法器为例，详细研究组合电路内建自测试设计的原理，结果表明该方法对电路测试快速有效。

2.学位论文张海南基于FPGA的高性能32位浮点FFT IP核的开发2008快速傅立叶变换(FFT)作为时域与频域转换的基本工具，正被广泛应用于检测、通信、图像处理和多媒体等领域。

而浮点FFT算法的FPGA实现正成为新的研究热点，受到了广泛关注。

论文首先分析了多种FFT算法以及算法的硬件实现结构，并选择按时间抽选基-2算法作为本课题的目标算法，同时采用单蝶形顺序处理结构实现浮点FFT处理器。

高速深流水线浮点加法单元的设计

高速深流水线浮点加法单元的设计张明;郑莉平;余宁梅【摘要】The paper describes a high-speed floating point adder design, which achieves compliance with IEEE-754 standard single-precision, double-precision, extended-double-precision and integer data with rounding mode controlled, working under X87 execution environment. The design is based on Two-Path algorithm with parallel pipeline depth optimization algorithm. The paper puts forward a deep parallel pipeline design. After verification the function meets the design requirements, using TSMC 65 nm technology library, whose operating frequency is up to 900 MHz.%在 X87执行环境下，采用基于 Two-Path 算法的并行深度流水线优化算法，设计了一种能够实现符合 IEEE-754标准的单精度、双精度和扩展双精度及整型数据且舍入模式可控的高速浮点加法器。

采用并行深度流水设计，经验证，功能满足设计要求，使用 TSMC 65 nm 工艺库进行综合，其工作频率可达900 MHz。

【期刊名称】《微型机与应用》【年(卷),期】2015(000)020【总页数】3页(P15-17)【关键词】浮点加法器;IEEE-754;Two-Path 算法;并行流水线【作者】张明;郑莉平;余宁梅【作者单位】西安理工大学自动化与信息工程学院，陕西西安 710048; 中国航天科技集团公司第九研究院第七七一研究所，陕西西安 710119;西安理工大学自动化与信息工程学院，陕西西安 710048;西安理工大学自动化与信息工程学院，陕西西安 710048【正文语种】中文【中图分类】TP332.1浮点运算单元（FPU）是微处理器（CPU）的重要组成部分，是进行大规模数据运算处理的关键技术［1］。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

万方数据
陋的论文得到两院院士关注ｌ软件时空
后选择其尾数进入右移模块．如图２ａ所示。

该部分的功能是使移部件和指数修止部件分别进行左移操作和指数修止，并最后两个数的指数位相同．以便进行尾数部分的加法运算。

输出整个浮点加法运算的结果。

指数修正部件在收到移位位数图２ａ中，Ｅ１、Ｅ２分别为两操作数的指数部分，Ｍ１、Ｍ２为对信号后。

会将较大的指数Ｅｘ减去移位位数作为最后的指数输应的尾数部分，Ｅｘ为两指数中较大的一个指数，Ｒｍ为尾数右出。

该两部分如图３ｂ所示。

移位数，ｒｓａ为需要进行右移操作的尾数，ａｄｌ为进入加法器的图中ｌｎｕｍ为前导判断出的左移位数。

ｉｎａｎ为左移后的尾另一个操作数的尾数。

数部分．Ｅｘｐ为修正后的指数部分；Ｖ表示指数溢出，ＵＦ表示指３．３右移部分及指数加１部分数下溢．它们用于标志位。

该部分是流水线的第二级。

需要右移的尾数在进入右移网络后右移。

在尾数相加时有可能会出现溢出的情况，因此需要对在第一级中输出的指数加“ｌ”操作．其结果作为尾数溢出时输出的指数．ｇａｐＥｘｌ。

Ｅｘ＿ｖ表示在Ｅｘ加“ｌ”时，指数溢出，也就是浮点数相加时上溢的情况。

该部分如图２ｂ所示。

毕南串
●ｔｈｌｈｈ，棚
（ａ）（ｂ）
图２指数对阶及右移网络
３．４加法部件
加法部件的延时向来都在浮点加法器中起关键的作用。

此时，尾数部分的加法就可以按照定点数来处理ｒ。

定点加法器的常用算法中有行波进位（ＲＣＡ），超前进位（ＣＬＡ），和选择进位（ＣＳＡ）算法。

行波进位结构简单，硬件开销少，但进位串行逐级向前传递．在位宽较大时时延会变得难以忍受：而超前进位结构消除了进位逐级传递的效应．且各级的进位输出将同时产生，其速度也最快．但硬件开销也最大；选择进位（ＣＳＡ）结构则将进位链分组并行。

组间采用串行方式连接。

每组有两条路径，进位输入为…０’和“ｌ”的丽种情况，通过两条路径同时计算。

一旦该组进位输入信号到来，通过多路选择器就可选择出正确的进位输出及和输出．其速度和硬件开销都介于ＲＣＡ和ＣＬＡ之间，而在位宽较小的情况下（如３２位）时，其速度与ＣＬＡ相差不大，因此本文中采用ＣＳＡ结构。

该部分如图３ａ所示。

在Ｄｃ综合后，该部件的延时为１．５６ｎｓ．为整个浮点加法器中的关键路径。

啦槎
（ａ）（ｂ）
图３加法器及尾数规格化
３．５规格化部件及指数修正部件
规格化部件和指数修正部件分为两级流水线，第四级流水线主要产生前导…０’或…１’的判断．经过编码产生移位位数信号。

与ＩＥＥＥ７５４数据格式不同的是．在做前导判断的时候，ＩＥＥＥ７５４只需要检查第一个“ｌ”的位置．而１＇Ｉ格式是要对与符号数的相反数进行查询．其过程相对复杂，因此本文将该部分单独作为一级流水线处理。

第五级流水线则将移位信号送入左
４结论
本文设计的是一种高速浮点加法器的ＩＰ软核，使用ＳＭＩＣ提供０．１８ｕｎｌＣＭＯＳ丁艺单元库并采用Ｓｙｎｏｐｓｙｓ公司的ＤｅｓｉｇｎＣｏｉｎｐｉｌｅｒ软件进行综合后发现。

如果使用传统的加法器结构，整个设计的关键路径延时为６．３ｎｓ．其最高理论运行频率为１５８ＭＨｚ．综合后的单元面积为６５８５９ｕｍ２。

而采用本文的加法器结构、算法以及使用流水线分层后，关键路径的延时仅为１．５６ｎｓ．工作频率可达５００ＭＨｚ以上，单元面积为６６７４２ｕｍ２。

由此可见．在单元面积并未明显增加的基础上。

本文方法大幅度的提高了加法器的性能。

图４为使用ＮＣ—Ｖｅｒｉｌｏｇ软件。

采用周期为２ｎｓ的时钟仿真综合后电路的仿真波形。

本文作者创新点：对传统加法器进行５级流水线合理划分．达到设计高速浮点加法器的目的。

幽４电路仿真波形图
参考文献
『ｌｌＲ．ＶＫ．Ｐ｛ｌｌａｉ，Ｄ．ＡＬ—Ｋｈａｌｉｌｉ，Ａ．Ｊ．ＡＬ—ＫｈａｌｉｌｉａｎｄＳ．Ｙ．Ａ．Ｓｈａｈ．ＡｌｏｗＰｏｗｅｒＡｐｐｒｏａｃｈｔｏＦｌｏａｔｉｎｇＰｏｉｎｔＡｄｄｅｒＤｅｓｉｇｎｆｏｒＤＳＰＡｐ・－ｐｌｉｃａｔｉｏｎｓ．ＪｏｕｎａｌｏｆＶＬＳＩＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ２７，１９５－２１３，２００１［２］ＤｅｎｚｉｌＦｅｍａｎｄｅｓ，ＶｉｊａｙＲａｊ，ＮａｒｓｉｍｈａｎＤｏｒｉｓｗａｍｙ．ＡＳｙｎｔｈｅｓｉｓＴｏｏｌＢａｓｅｄＤｅｓｉｇｎｏｆＡ１ｌ１ＭＨｚＣＭＯＳＦｌｏａｔｉｎｇＰｏｉｎｔＡｄｄｅｒＷｉｔｈＢｕｉｌｔＩｎＴｅｓｔａｂｉｌｉｔｙ．ＩＥＥＥ１９９３
【３１Ｄ．Ｎａｒａｓｉｍｈａｎ，Ｄ．Ｆｅｍａｎｄｅｓ，Ｖ．Ｋ．Ｒ且ｊ＿Ｊ．Ｄｏｒｅｎｂｏｓｃｈ，Ｍ．Ｂｏｗｄｅｎ，Ｖ．Ｓ．ＫａｐｏｏｒＡ１００ＭＨｚＦＰＧＡＢａｓｅｄＦｌｏａｔｉｎｇＰｏｉｎｔＡｄｄｅｒ．ＩＥＥＥ１９９３０—７８０３—０８２６－３／９３
【４］ＮＥＩＬＢＵＲＧＥＳＳ．ＮｅｗＭｏｄｅｌｓｏｆＰｒｅｆｉｘＡｄｄｅｒＴｏｐｏｌｏｇｉｅｓ．Ｊｏｕｒ－ｎａｌｏｆＶＬＳＩＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ４０，１２５—１４１，２００５．
【５］ＴＭＳ３２０Ｃ３ｘＵｓｅｒ’ｓＧｕｉｄｅ．２００４．
『６１钟冬庆。

嵌入式ＤＳＰ处理器的体系结构设计。

微计算机信息，２００６，１０Ｚ：７０一７１．
作者简介：夏杰（１９８１一），男（汉），江苏江阴人，江南大学信息工程学院．硕士，研究方向为数字电路设计。

Ｂｉｏｇｒａｐｈｙ：ＸＩＡＪｉｅ，ｍａｌｅ（ｂａｎ），Ｊｉａｎｇｙｉｎ，Ｊｉａｎｇｓｕ，Ｉｎｆｏｒｍａｔｉｏｎｄｅ・ｐａｒｔｍｅｎｔｏｆＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｍａｓｔｅｒ，ＭａｊｏｒｉｎＤｉｇｉｔａｌＣｉｒｃｕｉｔＤｅｓｉｇｎ．
（２１４１２２无锡江南大学信息工程学院）夏杰宣志斌
（２１４０３５无锡中国电子科技集团第５８研究所）薛忠杰
通讯地址：（２１４１２２无锡江南大学信息工程学院）夏杰
（收稿日期：２００８．７．２５）（修稿日期：２００８．９．１５）（多目自控嗣邮局订阅号：８２－９４６
３６。

元，年一１９３—
　万方数据。