单双精度浮点数的IEEE标准格式

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

单双精度浮点数的IEEE标准格式

目前大多数高级语言(包括C)都按照IEEE-754标准来规定浮点数的存储格式,IEEE754规定,单精度浮点数用4字节存储,双精度浮点数用 8字节存储,分为三个部分:符号位、阶和尾数。阶即指数,尾数即有效小数位数。单精度格式阶占8位,尾数占24位,符号位1位,双精度则为11为阶,53 位尾数和1位符号位,如下图所示:

31 30 23 22 0

63 62 52 51 0

细心的人会发现,单双精度各部分所占字节数量比实际存储格式都了一位,的确是这样,事实是,尾数部分包括了一位隐藏位,允许只存储23位就可以表示24位尾数,默认的1位是规格化浮点数的第一位,当规格化一个浮点数时,总是调整它使其值大于等于1而小于2,亦即个位总是为1。例如1100B,对其规格化的结果为1.1乘以2的三次方,但个位1并不存储在23位尾数部分内,这个1是默认位。

阶以移码的形式存储。对于单精度浮点数,偏移量为127(7FH),而双精度的偏移量为1023(3FFH)。存储浮点数的阶码之前,偏移量要先加到阶码上。前面例子中,阶为2的三次方,在单精度浮点数中,移码后的结果为127+3即130(82H),双精度为1026(402H)。

浮点数有两个例外。数0.0存储为全零。无限大数的阶码存储为全1,尾数部分全零。符号位指示正无穷或者负无穷。

下面举几个例子:

所有字节在内存中的排列顺序,intel的cpu按little endian顺序,motorola 的cpu按big endian顺序排列。

IEEE754标准的一个规格化 32位浮点数x的真值可表示为

x=(-1)^S*(1.M)*2^(E-127)e=E-127

31 30 23 0

|S | E |M |

[例1]若浮点数x的754标准存储格式为(41360000)16,求其浮点数的十进制数值。

解:将16进制展开后,可得二进制数格式为

0 100,0001,0 011,0110,0000,0000,0000,0000

S E M

指数e=100,0001,0-01111111=00000011=(3)10

包含隐藏位1的尾数1.M=1.011,0110,0000,0000,0000,0000

于是有x=(-1)^0*(1.M)*2^(E-127)

=+(1.011011)2*2^3

=(11.375)10

[例2]将数(20.59375)10转化为754标准的32位浮点数的二进制存储格式。解:首先分别将整数部分和小数部分转换成二进制

(20.59375)10=+(10100.10011)2

然后移动小数点使其在1,2位之间

10100.10011=1.010010011*2^4 e=4

于是得到:S=0,E=e+127=131,M=010010011

最后得到32位浮点数的二进制存储格式为

0 100,0001,1 010,0100,1100,0000,0000,0000

=(41A4C000)16

从存储结构和算法上来讲,double和float是一样的,不一样的地方仅仅是float是32位的,double是64位的,所以double能存储更高的精度。

任何数据在内存中都是以二进制(0或1)顺序存储的,每一个1或0被称为1位,而在

x86CPU上一个字节是8位。比如一个16位(2字节)的 short int型变量的值是1000,那么它的二进制表达就是:00000011 11101000。由于Intel CPU的架构原因,它是按字节倒序存储的,那么就因该是这样:11101000 00000011,这就是定点数1000在内存中的结构。

目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格:

````````符号位阶码尾数长度

float 1 8 23 32

double 1 11 52 64

临时数 1 15 64 80

由于通常C编译器默认浮点数是double型的,下面以double为例:

共计64位,折合8字节。由最高到最低位分别是第63、62、61、……、0位:最高位63位是符号位,1表示该数为负,0正;

62-52位,一共11位是指数位;

51-0位,一共52位是尾数位。

^P

按照IEEE浮点数表示法,下面将把double型浮点数38414.4转换为十六进制代码。

把整数部和小数部分开处理:整数部直接化十六进制:960E。小数的处理:

0.4=0.5*0+0.25*1+0.125*1+0.0625*0+……

实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了(隐藏位技术:最高位的1不写入内存)。

如果你够耐心,手工算到53位那么因该是:

38414.4(10)=1001011000001110.0110101010101010101010101010101010101(2)

(注:实际上我也没算到那么位,这个也只是意思一下,所谓的55555555CD C1E240对应却是38414.4166666666642……)科学记数法为:1.001……乘以2的15次方。指数为15!

于是来看阶码,一共11位,可以表示范围是-1024 ~ 1023。因为指数可以为负,为了便于计算,规定都先加上1023,在这里,15+1023=1038。二进制表示为:100 00001110 符号位:正—— 0 !

合在一起(尾数二进制最高位的1不要):

01000000 11100010 11000001 11001101 01010101 01010101 01010101 01010101

相关文档
最新文档