浮点型数据(float,double,logn double)介绍

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浮点型数据(float,double,logn double)介绍

1. float, double, 以及long double

前面所说的数据类型只能用于处理整数。如果我们需要使用小数，就要使用浮点类型（floating-point）。C 提供了三种浮点类型：float, double, 以及long double。注意，unsigned/signed 不能用于修饰浮点类型。浮点类型可以处理正数，也能处理负数。没有无符号浮点型。

C 标准要求float 类型至少要能精确表示到小数点后6位。float 一般是32 位的。

C 标准规定double 类型至少要能精确到小数点后10 位。double 通常是64 位的。

C 还提供了long double 类型，目的是提供一种比double 更加精确的类型。然而，C 标准仅仅规定long double 至少要和double 一样精确。long double 通常96 位或者128 位。

2. 声明浮点型变量

浮点型变量的声明和初始化与整型变量一样。例如：

float f_1, f_2;

double d_1;

float f_3 = 6.63;

long double ld_1;

3. 浮点型常量

浮点型常量有多种写法。其基本形式为：首先写整数部分（可以带符号），接着写小数部分，然后写e 或者E，最后再写一个有符号整数。例如：

+1.2E+5

1.5e-9

-5.0e10

其中e 或E 被称为阶码标志，e 或 E 后面的有符号整数被称为阶码。阶码代表10 的阶码次方。例如：+1.2E+5 的值是1.2 * 105。假设A 为e 前面的部分，N 是 e 后面的部分，则AeN 等于A * 10N。此外，正号可以省略不写。小数部分也不是必需的，也就是说，5e3 也是正确的。阶码标志和阶码也可以不写，如：13.5。小数点后面，阶码标志之前的那部分整数可以不写（9.E5），小数点之前的整数也可以不写（.96e-8），但是不能同时都不写。例如：

56.

3.14

3e6

.6E-8

注意：浮点型常量中不能有空格！例如：

3.21e -12 /* 有空格，错！*/

3.14 e5 /* 有空格，错！*/

浮点型常量默认是double 类型的。假设var_f 是float 类型的变量，如果有以下语句：

var_f = 9.0 * 3.0;

那么9.0 和 3.0 都是double 类型的常量。它们的乘积也是double 型的。在进行赋值的时候，这个乘积被转化成float 类型，然后再赋值给var_f。

当然，我们也可以指定浮点型常量的类型。在浮点型常量后面添上 f 或者F，编译器就会用float 类型来处理这个常量。例如：1.5f，2.1e6F。在后面添上l 或者L 的话，编译器会用long double 类型来处理这个常量。例如：4.1l，50.2E5L。最好用大写L，因为小写l 容易和数字1 混淆。

标准规定，对于float 型，E 后面的阶码的取值范围至少要达到-37 到+37。对double 和long double 的规定同样如此。

C99 新增了一种表示浮点型常量的格式：使用十六进制前缀（0x 或0X，0 是数字0，不是字母o ），用p 或P 代替前面所说的e 或E，而且阶码代表的是2 的阶码次方。例如：

0xb.1ep5

其中b 等于十进制中的11, .1e 等于1/16 加14/256, p5 等于25，也就是512。这个浮点型常量转换成十进制就是：(11 + 1/16 + 14/256)*25 = 5692

注意：并非所有编译器都支持C99 新增的这种格式！

4. 输出浮点数

格式限定符%f 命令printf 函数以十进制形式输出float 和double 类型的浮点数；%e 命令printf 函数以指数形式输出float 和double 类型的浮点数；%a 或%A 命令printf 函数以C99 新增的那种十六进制格式输出，但是并非所有编译器都支持。如果您要输出long double 类型的浮点数，请用%Lf，%Le，%La，或者%LA。例如：

/* showfloat.c –用两种形式表示浮点数*/

#include

int main(void)

{

float var_f = 5.0;

double var_df = 3.14e2;

long double var_ld = 6.51e-5;

printf("%f is equal to %e ", var_f, var_f);

printf("%f is equal to %e ", var_df, var_df);

printf("%Lf is equal to %Le ", var_ld, var_ld);

return 0;

}

输出如下:

5.000000 is equal to 5.000000e+00

314.000000 is equal to 3.140000e+02

0.000065 is equal to 6.510000e-05

注意：以上是我在Suse Linux 10 下使用gcc 4.02 编译运行得到的输出。如果使用Dev-C++ 4.9.9.2 编译运行本程序，则不能正常输出var_ld。大概是因为Dev-C++ 使用的编译器gcc 中，long double 是96 位的，而它使用函数库中的printf 函数却把long double 当作64 位的来处理。

5. 浮点数上溢（Overflow）和下溢（Underflow）

假设您的编译器中，float 最大只能达到3.4e38，如果有以下语句：

float toobig = 3.4E38 * 100.0f;

printf("%e ", toobig);

这必然导致上溢！因为toobig 无法表示3.4E38 和100.0f 的乘积。上溢的后果过去是没有定义的，不过现在 C 规定如果发生上溢，则产生一个表示无穷大的特殊值。因此，toobig 的值最终会变成一个表示无穷大的特殊值。进而，printf 函数会输出类似inf 或者infinity 的字眼。

对一个绝对值非常小的浮点数进行除法，并且导致这个浮点数的精度降低，称之为下溢。打个比方，假设3.1415e-10 除以10 后，变成0.3141e-10，这就是下溢。