浮点转定点方法总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浮点转定点方法总结

—孔德琦

目录

定点运算方法................................................ 错误!未定义书签。

数的定标 ............................................... 错误!未定义书签。

C语言:从浮点到定点 ................................. 错误!未定义书签。

加法.................................................... 错误!未定义书签。

乘法..................................................... 错误!未定义书签。

除法..................................................... 错误!未定义书签。

三角函数运算............................................ 错误!未定义书签。

开方运算................................................ 错误!未定义书签。

附录...................................................... 错误!未定义书签。

附录1:定点函数库...................................... 错误!未定义书签。

附录2:正弦和余弦表..................................... 错误!未定义书签。

定点运算方法

数的定标

对某些处理器而言,参与数值运算的数就是16位的整型数。但在许多情况下,数学运算过程中的数不一定都是整数。那么,如何处理小数的呢?应该说,处理器本身无能为力。那么是不是就不能处理各种小数呢?当然不是。这其中的关键就是由程序员来确定一个数的小数点处于16位中的哪一位。这就是数的定标。

通过设定小数点在16位数中的不同位置,就可以表示不同大小和不同精度的小数了。数的定标用Q表示法。表列出了一个16位数的16种Q表示能表示的十进制数值范围和近似的精度。

表 Q表示、S表示及数值范围

从表可以看出,同样一个16位数,若小数点设定的位置不同,它所表示的数也就不同。例如:

16进制数2000H=8192,用Q0表示

16进制数2000H=,用Q15表示

从表还可以看出,不同的Q所表示的数不仅范围不同,而且精度也不相同。Q越大,数值范围越小,但精度越高;相反,Q越小,数值范围越大,但精度就越低。例如,Q0的数值范围是-32768到+32767,其精度为1,而Q15的数值范围为-1到,精度为 1/32768 = 。因

此,对定点数而言,数值范围与精度是一对矛盾,一个变量要想能够表示比较大的数值范围,必须以牺牲精度为代价;而想提高精度,则数的表示范围就相应地减小。在实际的定点算法中,为了达到最佳的性能,必须充分考虑到这一点。 浮点数与定点数的转换关系可表示为:

浮点数(x)转换为定点数(x q ):Q

q x 2x (int)*=

定点数(q x )转换为浮点数(x):Q

q x -*=2

)float (x

例如,浮点数 x=,定标 Q =15,则定点数q x =⎣⎦16384327685.0=⨯,式中⎣⎦表示下取整。反之,一个用 Q =15 表示的定点数16384,其浮点数为16384×2-15

=16384/32768=。

1.2 c 语言:从浮点到定点

下面所描述的几种基本运算是浮点到定点转换中经常遇到的,从中可以体会到一些基本的技巧和方法。

加法

设浮点加法运算的表达式为:

float x,y,z; z=x+y;

将浮点加法/减法转化为定点加法/减法时最重要的一点就是必须保证两个操作数的定标值一样。若两者不一样,则在做加法/减法运算前先进行小数点的调整。为保证运算精度,需使Q 值小的数调整为与另一个数的Q 值一样大。此外,在做加法/减法运算时,必须注意结果可能会超过16位表示,即数的动态范围。如果加法/减法的结果超出16位的表示范围,则必须保留32位结果,以保证运算的精度。 1. 结果不超过16位表示范围

设x 的Q 值为Qx ,y 的Q 值为Qy ,且Qx>Qy ,加法/减法结果z 的定标值为Qz ,则

z =x+y

y

x z Q q Q q Q q y x z ---⋅+⋅=⋅2

22

=x y x x

Q Q Q q Q q y x ---⋅⋅+⋅22

2

)

(

=x y x Q Q Q q q y x --⋅⋅+2]2

[)

(

)()

(2]2[x z y x Q Q Q Q q q q y x z --⋅⋅+=

一般情况,我们取x,y 和z 的定标值相同,即Qx = Qy = Qz = Qa 。

所以定点加法可以描述为:

short x, y, z ; 定点减法:

short x, y, z ; 2. 结果超过16位表示范围

设x 的Q 值为Qx ,y 的Q 值为Qy ,且Qx>Qy ,加法结果z 的定标值为Qz,则定点加法为:

int x ,y ; long temp ,z ; temp =y<<(Qx-Qy); temp =x +temp;

z =temp>>(Qx-Qz),若Qx ≥Qz z =temp<<(Qz-Qx),若Qx ≤Qz

一般情况,我们取x,y 和z 的定标值相同,即Qx = Qy = Qz = Qa 。

所以定点加法可以描述为: int x, y, z ;

定点减法:

int x, y, z ; 3. 结果超过32位表示范围

这种情况下位数超出了标准c 语言的数的表示范围,只能用数组来保存变量。

定点加法可以描述为:

#define NN_DIGIT unsigned int NN_DIGIT x [digits], y [digits], z [digits] ;z

Q q z -⋅2

)

(2

y x Q Q q q y x +-⋅⋅q z )

(2

)(y x z Q Q Q q q y x +-结果超过32位表示范围

这种情况下位数超出了标准c 语言的数的表示范围,只能用数组来保存变量。

定点乘法可表示为:

#define NN_DIGIT unsigned int

NN_DIGIT x [digits]; NN_DIGIT y [digits]; NN_DIGIT z [2* digits]; NN_Mult (z, x, y, digits);

应注意的是以上32位乘法都是无符号数操作,如果需要做有符号数乘法,则需要根据乘数的符号来判断。

例1

设x = ,y = ,则浮点运算值为z =× = ; 设 Qx = 10,Qy = 9,Qz = 5,所以 int x = 18841;32位除法

设浮点除法运算的表达式为:

float x,y,z; z = x/y;

假设经过统计后被除数x 的定标值为Qx ,除数y 的定标值为Qy ,商z 的定标值为Qz ,

相关文档
最新文档