浮点数的表示和基本运算

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浮点数的表示和基本运算

1 浮点数的表示

通常，我们可以用下面的格式来表示浮点数

其中S是符号位，P是阶码，M是尾数

对于IBM-PC而言，单精度浮点数是32位（即4字节）的，双精度浮点数是64位（即8字节）的。两者的S，P，M所占的位数以及表示方法由下表可知

以单精度浮点数为例，可以得到其二进制的表示格式如下

其中S是符号位，只有0和1，分别表示正负；P是阶码，通常使用移码表示（移码和补码只有符号位相反，其余都一样。对于正数而言，原码，反码和补码都一样；对于负数而言，补码就是其绝对值的原码全部取反，然后加1.）

为了简单起见，本文都只讨论单精度浮点数，双精度浮点数也是用一样的方式存储

和表示的。

2 浮点数的表示约定

单精度浮点数和双精度浮点数都是用IEEE754标准定义的，其中有一些特殊约定。

（1）当P = 0, M = 0时，表示0。

（2）当P = 255, M = 0时，表示无穷大，用符号位来确定是正无穷大还是负无穷大。

（3）当P = 255, M != 0时，表示NaN（Not a Number，不是一个数）。

当我们使用.Net Framework的时候，我们通常会用到下面三个常量

Console.WriteLine(float.MaxValue); // 3.402823E+38

Console.WriteLine(float.MinValue); //-3.402823E+38

Console.WriteLine(float.Epsilon); // 1.401298E-45

//如果我们把它们转换成双精度类型，它们的值如下

Console.WriteLine(Convert.ToDouble(float.MaxValue)); //

3.40282346638529E+38

Console.WriteLine(Convert.ToDouble(float.MinValue)); //-

3.40282346638529E+38

Console.WriteLine(Convert.ToDouble(float.Epsilon)); // 1.401 29846432482E-45

那么这些值是如何求出来的呢？

根据上面的约定，我们可以知道阶码P的最大值是11111110（这个值是254，因为255用于特殊的约定，那么对于可以精确表示的数来说，254就是最大的阶码了）。尾数的最大值是11111。

那么这个最大值就是：0 11111110 11111。

也就是 2(254-127)* (1.11111)2= 2127* (1+1-2-23) = 3.40282346638529E+38

从上面的双精度表示可以看出，两者是一致的。最小的数自然就是-

3.40282346638529E+38。

对于最接近于0的数，根据IEEE754的约定，为了扩大对0值附近数据的表示能力，取阶码P = -126，尾数 M = (0.00001)2 。此时该数的二进制表示为：0 00000000 00001

也就是2-126* 2-23= 2-149 = 1.40129846432482E-45。这个数字和上面的Epsilon是一致的。

如果我们要精确表示最接近于0的数字，它应该是 0 00000001 00000

也就是：2-126* (1+0) = 1.229E-38。

3 浮点数的精度问题

浮点数以有限的32bit长度来反映无限的实数集合，因此大多数情况下都是一个近似值。同时，对于浮点数的运算还同时伴有误差扩散现象。特定精度下看似相等的两个浮点数可能并不相等，因为它们的最小有效位数不同。

由于浮点数可能无法精确近似于十进制数，如果使用十进制数，则使用浮点数的数学或比较运算可能不会产生相同的结果。

如果涉及浮点数，值可能不往返。值的往返是指，某个运算将原始浮点数转换为另一种格式，而反向运算又将转换后的格式转换回浮点数，且最终浮点数与原始浮点数相等。由于一个或多个最低有效位可能在转换中丢失或更改，往返可能会失败。

4 将浮点数表示为二进制

4.1 无小数的浮点数转换成二进制表示

首先，我们用一个不带小数的浮点数来说明如何将一个浮点数转换成二进制表示。假设要转换的数据是45678.0f。

在处理这种不带小数的浮点数时，直接将整数部分转化为二进制表示：

0.0，这时要加上一位默认的1（这是因为按照浮点数规格化的要求，尾数必须化成 1.M的格式），

那么可以表示成：10.0。

然后将小数点向左移，一直移到离最高位只有1位，也就是 1.0，一共移动了16位，我们知道，左移位表示乘法，右移位表示除法。所以原数就等于这样：1.0 * ( 216 )。现在尾数和指数都出来了。因为最高位的1是根据标准加上去的，只是

为了满足规格化的要求，这时候需要把这个1去掉。尾数的二进制就变成了：0。

最后在尾数的后面补0，一直到补够23位，就是：00000。

再回来看指数，根据前面的定义，P-127=16，那么P = 143，表示成二进制就是：10001111。

45678.0f这个数是正的，所以符号位是0，那么我们按照前面讲的格式把它拼起来，就是：0 10001111 00000。

这就是45678.0f这个数的二进制表示，如果我们要得到16进制的表示，非常简单，我们只需要把这个二进制串4个一组，转换成16进制数就可以了。但是要注意的是x86架构的CPU都是Little Endian的（也就是低位字节在前，高位字节在后），所以在实际内存中该数字是按上面二进制串的倒序存储的。要知道CPU是不是little endian的也很容易。

BitConverter.IsLittleEndian;

4.2 含小数的浮点数表示为二进制

对于含小数的浮点数，会有精度的问题，下面举例说明。假设要转换的小数为123.456f。

对于这种带小数的就需要把整数部和小数部分开处理。对于整数部分的处理不再赘述，直接化成二进制为：100100011。小数部份的处理比较麻烦一些，我们知道，使用二进制表示只有0和1，那么对于小数就只能用下面的方式来表示：

a1*2-1+a2*2-2+a3*2-3+......+an*2-n