02计量资料的统计描述

第二章 计量资料的统计描述

一、教学大纲要求

(一)掌握内容

1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。

2. 描述数据分布集中趋势的指标

掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标

掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容

连续型变量的频数分布图:等距分组、不等距分组。

二、 教学内容精要

计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。

(一)频数分布表的编制

频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下:

1.求数据的极差(range )。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。

确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。

(二)描述频数分布中心位置的平均指标

描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。 1.算术均数

算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用X 表示,其计算方法如下:

(1)直接法:直接用原始观测值计算。

n

X X ∑= (2-2)

(2)加权法:在频数表基础上计算,其中X 为组中值,f 为频数。

∑∑=

f

fX X (2-3) 2.几何均数

几何均数(geometric mean )用以描述对数正态分布或数据呈倍数变化资料的水平。记为G 。其计算公式为:

(1)直接法

??

? ??∑=-n X G lg lg 1 (2-4) (2)加权法

???

? ??∑∑=-f X f G lg lg 1 (2-5) 3.中位数

中位数(median )将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。

为奇数时 ??

? ??+=21n X M (2-6)

为偶数时 ()

(1)2212n n M X X +?

?=+ ???

(2-7)

2-1 常用平均数的意义及其应用场合

平均数 意义 应用场合

均数

平均数量水平

应用甚广,最适用于对称分布,特别是正态分布

几何均数 平均增(减)倍数 等比资料;对数正态分布

中位数 位次居中的观察值水平 偏态分布;分布不明;分布末端无确定值

(一)反映数据变异程度大小的变异指标

变异指标的应用亦根据资料的不同而选取不同指标进行描述。常用的变异指标有极差、四分位数间距、方差、标准差和变异系数,尤其是方差和标准差更为常用。

1.极差

极差(range )亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。

min max X X R -= (2-1) 2.百分位数与四分位数间距

(1)百分位数(percentile )是将n 个观察值从小到大依次排列,再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学正常参考值范围。 百分位数用P x 表示,0< x <100,如25%位数表示为P 25。在频数表上,百分位数的计算公式为:

()∑-?+

=L x

x

x x f x n f i L P % (2-8) (2)四分位数间距(inter-quartile range )是由第3四分位数(Q 3= P 75)和第1四分位数(Q 1= P 25)相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,比极差稳定。其计算公式:

31QR Q Q =- (2-9)

3.方差

方差(variance )表示一组数据的平均离散情况,其计算公式为:

()1

2

2-∑-=

n X S

μ (2-10)

4.标准差

标准差(standard deviation )是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用,其计算公式为:

S =

=

(2-11)

5.变异系数

变异系数(coefficient of variation )用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV 表示,计算公式为:

%100?=X

S CV (2-12)

平均指标和变异指标分别反映资料的不同特征,作为资料的总结性统计量,两类指标要求一起使用。如常用S X ±或M (QR )。

三、典型试题分析

1.名词解释:平均数

答案:平均数(average )是描述数据分布集中趋势的指标,在卫生领域中最常用的平均数指标:算术均数、几何均数和中位数。

[评析]本题考察平均数的概念。平均数是一类统计指标,并不单纯指算术均数。 2.描述一组偏态分布资料的变异度,以( )指标较好。 A.全距 B.标准差 C.变异系数 D.四分位数间距 答案:D

[评析]标准差和变异系数均用于描述正态分布资料的变异度,全距和四分位数间距可用于任何资料,而四分位数间距更为稳定,故选D 。

3.用均数和标准差可以全面描述( )资料的特征。 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 答案:C

[评析]本题考察均数和标准差的应用条件。 4.同一资料的标准差是否一定小于均数?

答案:均数和标准差是两类不同性质的统计指标。标准差用于描述数据的变异程度,变异程度大,则该值大,变异程度小,则该值小。标准差可大于均数,也可小于均数。

5.试述极差、四分位数间距、标准差及变异系数的适用范围。

答案:这三个指标均反映计量资料的离散程度。极差与四分位数间距可用于任何分布,后者较前者稳定,但均不能综合反映各观察值的变异程度;标准差最为常用,要求资料近似服从正态分布;变异系数可用于多组资料间度量衡单位不同或均数相差悬殊时的变异程度比较。

四、习题

(一)名词解释

1.频数表

2.算术均数

3.几何均数

4.中位数

5.极差

6.百分位数

7.四分位数间距

8.方差

9.标准差 10.变异系数

(二)单项选择题

1.各观察值均加(或减)同一数后()。

A.均数不变,标准差改变

B.均数改变,标准差不变

C.两者均不变

D.两者均改变

2.比较身高和体重两组数据变异度大小宜采用()。

A.变异系数

B.差

C.极差

D.标准差

3.以下指标中()可用来描述计量资料的离散程度。

A.算术均数

B.几何均数

C.中位数

D.标准差

4.偏态分布宜用()描述其分布的集中趋势。

A.算术均数

B.标准差

C.中位数

D.四分位数间距

5.各观察值同乘以一个不等于0的常数后,()不变。

A.算术均数 B.标准差

C.几何均数

D.中位数

6.()分布的资料,均数等于中位数。

A.对称

B.左偏态

C.右偏态

D.偏态

7.对数正态分布是一种()分布。

A.正态

B.近似正态

C.左偏态

D.右偏态

8.最小组段无下限或最大组段无上限的频数分布资料,可用()描述其集中趋势。

A.均数

B.标准差

C.中位数

D.四分位数间距

9.()小,表示用该样本均数估计总体均数的可靠性大。

A. 变异系数

B.标准差

相关文档
最新文档