02 定量资料的统计描述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 定量资料的统计描述
[教学要求]
了解:通过电脑实验了解定量资料的频数分布表的编制方法和分布规律;通过
电脑实验了解描述分布形态的偏度系数与峰度系数的计算和意义。
熟悉:熟悉利用统计图表描述定量资料的基本方法;熟悉制作统计图表的基本要求和规则;熟悉百分位数的计算方法。
掌握:掌握描述定量资料集中趋势的算术均数、几何均数、中位数的计算方法和适用条件;掌握描述定量资料离散趋势的极差、四分位数间距、方差、标准差
和变异系数的计算方法和适用条件;掌握常用统计图表的制作方法。
[重点难点]
第一节 频数与频数分布
一、离散型定量变量的频数分布
基本概念:离散型变量定义参见有关章节。此型变量的特点是:实测值之间有间断,或实测值可数。
特点:离散型定量变量的频数表即频数分布表,可直接反映该变量的分布规律。离散型定量变量的频数分布图可用直条图表达。
二、连续型定量变量的频数分布
基本概念:定义参见有关章节。此型变量的特点是:实测值之间没有间断,或实测值不可数。实测值之间的间断可以忽略时,也可近似地视为连续型变量。
特点:连续型定量变量各观察值的频数表不是频数分布表,不能正确反映该变量的分布规律,只有划分特定数值组段后的频数表才能成为频数分布表。连续型定量变量的频数分布图可用直方图表达,其纵坐标为频率密度,即频率/组距,直方图的面积之和等于1。
第二节 定量变量的特征数
一、描述集中趋势的统计指标
基本概念:由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。
在应用中,有一些统计量常称为统计指标。
㈠ 算术均数
意义:算术均数简称均数,常用符号 表示样本均数,μ表示总体均数。均数是描述一组数据集中趋势或平均水平的最常用统计指标。
计算:1.直接法(基于原数据)
其中, 为观察值。
2. 加权法(基于频数表)
其中, 为组段的频数, 为组段的中值。 =(组段上限+组段下限)/2。
适用条件:适用于对称分布资料,尤其正态或近似正态分布资料。
㈡ 几何均数
意义:几何均数以符号G表示,常用来反映一组含多个数量级的数据的集中位置。
计算:1.直接法(基于原数据)
或
其中, 为观察值。
2. 加权法(基于频数表)
适用条件:适用于观察值变化范围跨越多个数量级的资料,尤其对数正态分布资料。
㈢ 中位数
意义:中位数常用符号M表示,是反映一组数据集中趋势的位置指标,在全部实测值中有一半数值
比它小,有一半数值比它大。
百分位数常用符号 表示,是排序后的全部实测值的某百等份分割值,即在全部实测值中有x%个数值比它小,有1-x%个数值比它大。中位数就是一个特定的百分位数,即M=P50。
计算:中位数为全部实测值排序后的中间数值或中间两个数值的算术均数。
1. 直接法(基于原数据)
将n例数据按升序排列,其第i个数据用 表示。
n为奇数时,
n为偶数时,
2. 内插法(基于频数表)
其中,L为欲求的 所在组段的下限,i为该组段的组距, 为该组段的频数,n为总频数, 为该组段之前的累计频数。
其中,L为欲求的中位数所在组段的下限,i为该组段的组距, 为该组段的频数,n为总频数, 为该组段之前的累计频数。
频率
区间 ↑
?
适用条件:资料不限,但最常用于非对称分布的资料。
㈣ 众数
意义:全部实测值中出现次数最多的数值即为众数。
㈤ 调和均数
意义:全部观察值倒数的算术均数的倒数即为调和均数,常用符号H表示。
计算:
其中, 为观察值。
二、描述离散趋势的统计指标
基本概念:离散趋势或变异程度是指观察值之间参差不齐的程度。
㈠ 极差
意义:极差又称全距,常用符号R表示。极差反映一组数据的变异范围。用
极差反映数据的变异程度常常比较粗略和不稳定。
计算: R = 最大值-最小值
适用条件:资料不限。
㈡ 四分位数间距
意义:P75和P25分别称为上、下四分位数。四分位数间距Q是全部观察值中居中的一半数值散布的范围。用四分位数间距反映数据的变异程度比极差稳定。
计算: Q= P75-P25
其中,P75和P25的求法参见前述百分位数求法。
适用条件:资料不限。
㈢ 方差和标准差
意义:总体观测值的离均差平方和的算术均数称为总体方差,用σ2表示。总体方差的平方根称为总体标准差,用σ表示。二者都反映总体中观测值之间的离散趋势或变异程度,数值越小,表明变异程度越小;反之亦然。
实际抽样研究中,常用样本方差S2和样本标准差S作为σ2和σ的近似值。
标准差的量纲与原变量一致,故实际应用中常使用标准差。
计算: 总体方差
样本方差
总体标准差
样本标准差
其中,n-1称为自由度。
适用条件:适用于对称分布资料,尤其正态或近似正态分布资料。
㈣ 变异系数
意义:变异系数常用符号CV表示。它是标准差与算术均数之比,是一个不带量纲的相对数。
计算:
适用条件:适用于量纲不同的变量间,或均数差别较大的变量间变异程度的比较。
三、描述分布形态的统计指标
㈠ 偏度系数
意义:理论上总体偏度系数为0时,分布是对称的;取正值时,分布为正偏峰;取负值时分布为负偏峰。
计算:
其中, 为观察值,n为样本含量, 为样本均数;S为样本标准差。
㈡ 峰度系数
意义:理论上, 正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。
计算:
其中,符号同上。
第三节 常用统计图表
一、统计表
基本概念:将统计数值或统计指标用表格的形式列出称为统计表。
列表原则:重点突出、简单明了、主谓分明、层次清楚。
二、统计图
基本概念:将统计数值或统计指标用图形的方式表达称为统计图。
常用统计图:
1. 直条图 用等宽直条的长度来表达参与比较的指标的大小。
2. 百分条图 用直条的长度或面积表达事物各组成部分在全体中的比重。
3. 圆图 用同一圆形中的扇形面积表达事物各组成部分在全体中的比重。
4. 线图 用线段的升降表达一事物的量随另一事物的量变化的趋势,或某事
物的量随时间变化的过程。
5. 半对数线图 纵轴用对数尺度的线图。适用于表达事物之间相对变化速
度的比较。
6. 直方图 用于表示连续性定量变量的频数分布。
[案例讨论参考答案]
案例2-1:该资料为一排除与观测指标发汞相关因素的正常人群的发汞值(μmol/kg)的检测结果,以频数分布表的形式(见表2-10)给出。首先应考察
该资料的分布规律,通过表中前三列的信息可以看出此238人的发汞值的频数分布呈正偏峰分布,即观测值绝大多数分布于发汞值较小的组段,用下述直方图表达尤为明显。
根据此特点应选用中位数计算该市居民发汞平均水平,本文中选用算术均数求发汞平均水平是不合理的。合理计算过程如下:
。
案例2-2:根据统计表的列表原则和制表的基本要求判断出此统计表的缺陷有:无标题;纵标目与横标目排列不当;出现竖线与斜线;纵标目未标明单位。
修改如下:
案例2-3:根据此统计图中要表达的信息可判断出不同年度的医院门诊量的比较应该用直条图,根据直条图的制图基本要求修改此缺陷统计图如下:
[电脑实验程序及结果解释]
实验2-1 连续型定量变量的统计描述
01 DATA t; 建立SAS数据集ex1;
02 INPUT x @@; 定义并连续输入变量x;
03 gr=2; 为组距变量gr赋值(本例组距取为2);
04 x1=gr*INT(x/ gr); 将每例数据归组并转化为相应组段的
下限值;
05 CARDS; 数据块开始;
06 7.42 8.65 23.02 21.61
07 ……
08 24.66 14.18 16.52
09 ; 数据步结束;
10 PROC FREQ DATA=t; 调用freq过程;
11 TABLES x1; 指定变量x1的频数表;
12 PROC GCHART DATA=t; 调用gchart过程;
13 VBAR x1/DISCRETE TYPR=FREQ SPACE=0; 绘制x1的直方图,DISCRETE指明x1为离散型变量,type=freq指明用频数作纵轴;
14 VBAR x/TYPR=FREQ MIDPOINTS=7 绘制x的直方图,定义直方图组中值的范围和组
TO 29 BY 2 SPACE=0; 距,space=0指定条间距为0;
15 RUN; 运行程序;
运行结果:
Output窗口:
The FREQ Procedure
Cumulative Cumulative
x1 Frequency Percent Frequency Percent
变量值 频数 频率 累积频数 累积频率
---------------------------------------------------------
6 1 0.83 1 0.83
8 3 2.50 4 3.33
10 6 5.00 10 8.33
12 8 6.67 18 15.00
14 12 10.00 30 25.00
16 20 16.67 50 41.67
18 27 22.50 77 64.17
20 18 15.00 95 79.17
22 12 10.00 107 89.17
24 8 6.67 115 95.83
26 4 3.33 119 99.17
28 1 0.83 120 100.00
Graph窗口:
变量x1的直方图(离散) 变量x的直方图(连续)
实验2-2 绘制半对数线图
01 DATA t; 建立SAS数据集t;
02 INPUT year x; 定义并连续输入变量year和x;
03 x1=LOG(x); 计算x的常用对数并赋值给x1,用于生成对数尺度;
04 CARDS; 数据块开始;
05 1975 1.45
06 1980 0.82
07 1985 0.23
08 1990 0.14
09 ; 数据步结束;
10 SYMBOL C=GOLD I=JOIN; 设置系统作图方式:C=GOLD定义作图符号为金黄色,I=JOIN定义作折线图;
11 PROC GPLOT; 调用GPLOT过程;
12 PLOT x*year x1*year; 指定分别绘制x与year、x1与year的线图;
13 RUN; 运行程序;
运行结果:
Graph窗口:
x x1
year year
[思考与练习的参考答案]
1. 利用统计软件编制胸围数据的频数表并绘制直方图。
SAS源程序:
————————————————————————————————————————
01 data t1;
02 input x @@;
03 gr=1.2;
04
x1=gr*int(x/gr);
05 cards;
06 51.6 54.1 51.3 56.6 51.2 53.6
... ...
25 52.6 54.6 52.7 56.4 55.5 54.4
26 ;
27 proc freq data=t1;
28 tables x1;
29 proc gchart data=t1;
30 vbar x1/discrete type=freq space=0;
31 run;
————————————————————————————————————————
Output窗口:
胸围数据的频数表见上述结果的前1、2列。
Graph窗口:
从上面求出的胸围数据的频数表和绘制的直方图可以看出此数据的分布特征为:中等数值居多,大值、小值不占多数,近似对称分布。
根据此分布特征,描述胸围数据的集中趋势应选用均数,离散趋势应选用标准差。下面列出统计软件的计算过程。
SAS源程序:
————————————————————————————————————————
01 data t1a;
02 set t1;
03 proc univariate;
04 var x;
05 run;
————————————————————————————————————————
Output窗口:
2. 根据资料中研究细胞增殖抑制率随时间变化的趋势的特点,此数据应绘制线
图,又由于分两组,故绘制复式线图。
SAS源程序:
————————————————————————————————————————
01 data t2;
02 input t treat control;
03 label treat='实验组' control='对照组';
04 cards;
05 1 133 100
06 3 123 98
07 5 54 162
08 7 140 250
09 ;
10 axis1 label=(c=black '细胞增殖抑制率(%)');
11 axis2 label=(c=black '时间(天)');
12 legend1 label=('图例');
13 symbol1 c=black v=none i=join l=1 w=2;
14 symbol2 c=black v=none i=join l=2 w=1;
15 proc gplot;
16 plot treat*t=1 control*t=2 /
17 haxis=axis2 vaxis=axis1
18 legend=legend1
19 overlay;
20 run;
————————————————————————————————————————
Graph窗口:
3. 根据资料中显示指标为构成比的特点,此数据应绘制百分条图或饼图,又由
于分两地区,故绘制复式百分条图或饼图。
SAS源程序:
————————————————————————————————————————
01 data t3;
02 length unit $ 16;
03 input unit $ area $ x;
04 label area='地区';
05 cards;
06 医院 城市 63.84
07 医院 农村 20.38
08 妇保 城市 20.76
09 妇保 农村 4.66
10 卫生院 城市 7.63
11 卫生院 农村 16.38
12 其他 城市 7.77
13 其他 农村 58.58
14 ;
15 run;
16 title2 '不同地区的妇女分娩地点分布(%)';
17 legend1 label=('图例');
18 proc gchart data=t3;
19 pie unit /
20 sumvar=x
21 midpoints='医院' '妇保' '卫生院' '其他'
22 across=2
23 g
roup=area
24 value=outside
25 percent=none
26 noheading
27 legend=legend1;
28 run;
————————————————————————————————————————
Graph窗口:
4. 根据资料特点,儿童乳牙萌出月龄的平均时间可以求均数或中位数。
计算过程略。 =8.55(月);M=8.5(月)。
5. 根据资料中血凝抑制抗体滴度指标呈倍数关系的特点,计算其平均滴度应选
用几何均数,由于是频数表资料,故用加权法计算几何均数。
此资料的血凝抑制抗体平均滴度为1:48.5。
[补充练习题]
选择题
㈠ A1型:每一道题下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。
1. 用图表示某地区近30年三种疾病的发病率,在各年度的动态发展速度情况,宜绘制 。
A.普通线图 B.直方图 C. 百分条图 D.半对数线图 E.直条图
2. 某地区两年的三种死因别死亡率,若用统计图表示出来可选用 。
A.复式线图 B.百分条图 C.复式直条图 D.直方图 E.统计地图
3. 计算样本标准差时用下列公式中的 。
A. B. C.
D. E.
4. 反映定量变量观察数据集中位置的指标是 。
A.标准差 B.标准误 C.频率 D.全距 E.均数
5. 下列各式中 为最小。
A. B. C.
D. E. 注:A、C为某一常数
6. 在正态分布条件下表示变量值变异情况的指标最常用的是 。
A.标准差 B.标准误 C.变异系数 D.全距 E.百分位数
7. 变异系数越大说明 。
A.标准差越大 B.平均数越大 C.标准差、平均数都大
D.平均数小 E.以均数为准变异程度大
8. 在服从正态分布N(μ,σ2)条件下,样本标准差S的值 。
A.与集中趋势有关 B.与观察例数n无关 C.与平均数有关
D.与平均数无关 E.与个体的变异程度有关
㈡ A2型:每一道题以一个小案例出现,其下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。
1. 已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,>20,其潜伏期的平均水平约为 。
A. 9天 B. 9.5天 C. 10天 D. 10.2天 E. 11天
2. 已知我国部分县1988年死因构成比资料如下:心脏疾病11.41%,损伤与中
毒11.56%,恶性肿瘤15.04%,脑血管病16.07%,呼吸系统病25.70%,其他20.22%。
为表达上述死因的构成的大小,根据此资料应绘制统计图为 。
A.线图 B.百分条图 C.直条图 D.直方图 E.统计地图
㈢ B1型:以下提供若干组题目,每一组题目前列出A、B、C、D、E五个备选答案,请从中为每一道题目选择一
个最佳答案。某个备选答案可被选择一次、多次或不被选择。
(1~4题共用备选答案)
A. 直条图
B. 直方图
C. 构成图
D. 普通线图
E. 半对数线图
1. 表示各相对独立指标的数值大小宜用 。
2. 表示某现象随另一现象而变动的趋势宜用 。
3. 表示全体中各部分的比重宜用 。
4. 表示连续性变量资料的频数分布宜用 。
[参考答案]
选择题
㈠ 1. D 2. C 3. A 4. E 5. A 6. A
7. E 8. E
㈡ 1. B 2. B
㈢ 1. A 2. D 3. C 4. B 5. B 6. C 7. E
(陶育纯,刘钢)