定量资料统计描述——集中趋势与离散程度
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
度量单位不同资料之间离散度的比较; 均数相差悬殊的资料之间离散度的比较。
【例4-11】
某研究收集了100例7岁男孩的身高和体重的资料,身高均数为 123.10cm,标准差为4.71cm;体重均数为22.92kg,标准差为 2.26kg,比较这100例7岁男孩的身高和体重的变异度。
身高 CV
4.71 100 % 3.83 %
M X n1
当n为奇数时,
() 2
, 位置居中的观察值
当n为偶数时,
M
(X n ()
X n )/ ( 1)
2 ,计算出位次居中的两个观察值的均数
2
2
例:7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。
本例n=7,为奇数
M X 71 X 4 5(天 ) () 2
例:8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。
本例n=8,为偶数
M
1
2
X 8
() 2
X 8
( 1) 2
1 2
X
4
X5
1 3 5 4(小时)
2
(二) 中位数的应用
中位数可用于各种分布的资料,在正态分布资料中,中位数等于 均数,在对数正态分布资料中,中位数等于几何均数。
中位数不受极端值的影响,因此,实际工作中主要用于不对称分 布类型的资料、两端无确切值(>100)或分布不明确的资料。
患者编号:1 2 3 4 5 6 7 8 9 ... 117 118 119 120 住院天数:1 2 2 2 3 3 4 4 5 ... 40 40 42 45
n=120,120*5%=6,为整数:
P5
1 2
X ( 6 )
X ( 7 )
1 2
(3
4)
3.5(天 )
120 99% 118.8
医学统计学
统计生物医学教研室
定量资料统计描述
Quantitative data statistical description
集中趋势的统计描述
利用频数分布表和频数分布图,可以使我们对数据的分布有一 个直观的认识,为了进一步掌握数据分布的规律,还需要用统计指标 从数量上准确地反映数据分布的特征。
对称分布资料,尤其是正态分布或近似正态分布资料。
【例4-10】 利用例4-1的数据,计算标准差。
已知120名正常成年人血清铜平均含量为14.46μmol/L 按式4-13计算,
s s 2 2.2693 (mol/L)
采用不同计量单位的指标,不能直接用标准差比较
四
其离散程度,有时即使计量单位相同,在均数相差很大
三、百分位数
(percentile)
是指将观察值从小到大排列后处于第x百分位置上的数值,用 符号Px表示 。百分位数Px将全部数据分成两部分,有x%的数据 小于Px ,有 (1-x)%的数据大于Px ,因此百分位数是一个位置指 标,其中 P50为中位数。
百分位数的计算方法有:
(1)直接法
当nx%=INT(nx%)
123 .10
体重 CV 2.26 100 % 10 .14 % 22 .29
可见,这100例7岁男孩的身高的变异度小于体重的变异度。
Thank For You Attention!
.
的情况下,数据分布的集中位置相差很远,标准差的数
变
值大小可能受到平均水平大小的影响,也不宜直接比较。
异
因此,在这些情况下,应采用变异系数来比较其离散程
系 数
度。计算方法为:
S
CV 100 %
X
变异系数也称离 散系数,是一组 数据的标准差与 其平均数之比, 是对数据离散程 度的相对度量代 表值。 主要用于:
【例4-4】 根据表4-2资料,计算120名正常成年人血清铜平均含量。
9.5 3 10 .5 4 19 .5 2
X
14 .46
(μmol/L)
120
(二) 均数有两个重要特性
各观察值与均数之差(离均差)的总和等于零。即 ( X X ) 0 各观察值的离均平方和最小。即 ( X X )2 ( X a)2 (a X )
一、极差 (range)
也称全距,即全部数据中最大值与最小值之差,用符号 R表示。极 差大,说明变异程度大;反之说明变异程度小。
极差(range)
一
也称全距,即全部数据中最大值与最小值之差,用符号 R表
.
示。极差大,说明变异程度大;反之说明变异程度小。
极
计算三组同龄男孩的身高值(cm)的极差:
差
统计学采用平均数(average)这一指标体系来描述一组变量值集 中位置和平均水平,它反映了一组资料的“一般”、“大多数”、 “平常”等情况。平均数是一类统计指标的统称,在医学领域中常用 的平均数有算术均数、几何均数和中位数。
一、算术均数
均数(mean)
是算术均数(arithmetic mean)的简称,用于描述一 组同质定量资料的平均水平。统计学中常用希腊字母μ 表示
已知120名正常成年人血清铜平均含量为14.46μmol/L 1.直接计算样本方差: s 2 (12 .53 14 .46 ) 2 (14 .10 14 .46 ) 2 (14 .35 14 .46 ) 2 5.121
120 1
方差的度量单位是原度量单位的平方,如长度单位平方 之后就是面积,给实际应用带来不便。为此,将方差开 平方得标准差,赋予方差实际意义。总体标准差用σ 表 示,样本标准差用 s表示。
时, Px
xINT (nx % )
xINT (nx % )+1 2
当 nx%>INT(nx%) 时, Px xINT(nx% )+1 式中,INT(nx%) 为n与x%乘积的整数部分。
例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小
到大的排列如下,试求第5百分位数和第99百分位数。
带有小数,取整后INT(118.8)= 118
P9 9 X ( tru n c (1 1 8 .8 ) 1 ) X (1 1 9 ) 4 2 ( 天 )
离散趋势的统计描述
三组同龄男孩身高
甲组: 90 乙组: 96 丙组: 96
95 100 105 110 X甲=100cm 98 100 102 104 X乙=100cm 99 100 101 104 X丙=100cm
以上两个特性表明均数是一组单峰对称分布观察值 最理想的代表值,这些特性在以后将多次用到。
(三) 均数的应用
均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本 资料进行比较。
均数适用于单峰对称分布资料,特别是正态分布或近似正态分布的 资料,但由于均数易受到极端值的影响,故不适用于描述偏态分布 资料的集中位置,这时需要采用几何均数或中位数。
一观察值 偏离总体均数的情况,可用 (x-μ)表示,称离均差。但是, (x-μ)
有正有负,对于对称分布资料来说,其和恒为0,不能真正反映一组数据的
三 .
离散度。为此,将(x-μ)平方后再相加,得
,即离均差平( 方X和- ,)2全
面反映一组数据的离散度。但
的大小除与变异度(X大- 小)2有关外,还
受观察例数 N大小的影响, N越大, 就会越大,为消除这一影响,进一步
fi
fi
式中:m1,m2,.....mk为所有观察组段的组中值,组中值为两个相邻组段 的下限之和除以2得到;f1,f2,.....fk为对应组段的频数。
加权即权重(频数权重为频率,均数等于各组段组中值乘对应频率之和) 或折中(每组频数对应的观察值折中为组中值,均数等于各组段组中值乘对 应频数之和除以频数之和)之意。
(X Байду номын сангаас)2
N
X X 2
s n 1
标准差是统计学中应用最广泛的一个离散度指标,除了 可以反映一组数据的变异度外,还可以:
说明均数的代表性,标准差大,说明均数的代表性较差,反之,说明均 数的代表性较好;
和均数一起,用于医学参考值范围的制定; 用于计算t值和变异系数等。标准差及方差也有其适用的资料类型,为
甲组 110-90=20(cm)
乙组 104-96=8(cm)
丙组 104-96=8(cm)
甲组数据的离散程度较乙、丙组大。
二
四分位数(quartile)
.
通过P25,P50,P75这3个点将全部观察值等分
四
为四部分,处于P25和P75分位点上的数值就是四分位
分
位
数(quartile,简记为Q)。
X 总体均数,用 表示样本均数。
(1)直接计算法
X X 1 X 2 X n
X
n
n
式 中 X 1, X 2 , , X n 为 所 有 观 察 值 ,n 为 样 本 含 量 , ( 希 腊 字 母 , 读作
sigma) 为 求 和 的 符 号 。
【例4-3】 利用例4-1的数据,计算算术均数。
数
间
距
【例4-8】 利用例4-7数据计算四分位数间距 按百分位数的计算步骤求解,分别求P25 与 P75
四分位数间距是去除两端各四分之一数据后中间一半观察值的变动范围,其 数值越大,说明观察值分布的离散程度越大。四分位数间距常用于描述偏态 分布资料、两端无确切值或分布不明确资料的离散程度。
以离均差(x-μ)表示总体中各观察值的变异,对总体而言,即考察总体中每
均数在描述正态分布的特征方面有重要意义,这点我们后续的学习 会进一步强调。
二、中位数
中位数(median)
是一个位置指标,中位数就是位置居中的观察值,是将一组观察值按大小
顺序排列后位次居中的数值。因此,在全部观察值中,大于和小于中位数的观
M 察值个数相等。样本中位数用
表示。
(一) 中位数的计算与样本例n的奇偶情况有关
X 19 .84 19 .04 9.23 14 .46 (μmol/L)
120
(2)加权法
X f1 X 1 … f k X k
fX
fX
f1 … fk
f
n
(1+1+1+2+2+2+2+3+3)/9 =(1*3+2*4+3*2)/9
(2)利用频数表的加权法
X m1 f1 m 2 f 2 m k f k mi f i
方
将离均差平方和除以N 得总体方差,用符号
表示。
差 与
2
2 X μ2
N
标
准 差
式中,μ 为总体均数,常常是未知的,需用样本量为n的样本均数X 代 替, 以样本含量 代替,这样计算的方差为样本方差。
s 2 X X 2 X 2 ( X )2 / n
n 1
n 1
【例4-9】 利用例4-1的数据,计算方差。