集中趋势的统计描述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[例1-6]调查某地107名正常人尿铅含量 (mg/L)结果列于下表,计算中位数: 本例,第3组的累计频数为65,超过n/2= 53.5,即第3组为本组。
i n 4 107 M L fL 29 36 10.41(m g/ L) f2 65 2
离散趋势的统计描述
计量数据的频数分布有两个重要特征:集 中趋势和离散趋势。必须指出,要把两者结合 起来才能全面地反映数据频数分布的基本特征。 [例1-8]两组计量数据如下,分析其分布特征。 甲组 98,99,100,101,102 X1 100 乙组 80,90,100,110,120
X2 100
式中,Σ是求和的符号 。
例题
例 14-1 10名12岁男孩身高(cm)分别为 125.5,126.0,127.0,128.5,147.0, 131.0,132.0,141.5.0,122.5,140.0。 求平均数。
X X n 125.5 126 ... 122.5 140 132.1 10
166.06
体重 结果表明该地20岁男子体重的变异大于身 高的变异。
4.96 CV 100% 9.23% 53.72
正态分布
正态分布的图形

频数分布逐渐接近正态分布状态
正态分布的特点
正态分布是一种很重要的连续型分 布。正态分布以均数为中心,左右两侧 对称,靠近均数两侧的频数较多,而距 均数两侧较远处,频数逐渐减少,形成 钟形分布。正态曲线下的面积分布有一 定的规律。
集中趋势
集中趋势: 表示数据的中心位置 。 集中趋势的指标 : 平均数是一组统计指标,常用的有算 术均数、几何均数及中位数等。
平均数
平均数 是表示一组同质计量资料的集中趋 势或平均水平的统计指标,是计量资料 中非常重要的一个指标体系。医学研究 中常用的平均数有算术均数、几何均数 及中位数三种。这个平均数是广义的, 而日常人们所说的平均数是狭义的算术 均数。
一般采用对数形式计算:
lg X lg X 1 lg X 2 ... lg X n 1 G lg lg n n
1

式中lg为取常用对数的符号,lg-1为反对数。
例题
6 份血清抗体滴度为: 1:2 , 1:4 , 1:8 , 1:8,1:16,1:32,求平均数。
Байду номын сангаас
X us
如制定95%参考值范围,双侧界值 u=1.96,单侧界值u=1.645。 双侧界值:x1.96s 单侧上界:x+1.645s 单侧下界:x-1.645s
例题
[ 例 1-12] 某地调查正常成年男子 144 人的红细胞 数近似正态分布,得均数=5.38(1012/L),标 准差 s=0.44 ( 1012/L ),试估计该地成年男子 红细胞数的95%参考值范围。 因红细胞数过多或过少均为异常,故按双 侧估计95%界值。 下限为:x - 1.96s=5.38-1.96 ×0.44 =4.52 (1012/L) 上限为:x + 1.96s=5.38+1.96×0.44 =6.24(1012/L) 故该地成年男子红细胞数的95%参考值范围 (4.52—6.24)1012/L
正态分布曲线下的面积
图1-2 正态分布曲线及其面积分布
正态分布的主要特征
1. 以均值μ为中心,左右对称。 2. X取值范围理论上没有边界。X离μ越远,函数 f(x)值越接近0,但不会等于0。 3. 正态分布曲线下的面积分布有一定的规律。 4. 正态分布完全由参数μ和决定。 μ是位置参数 (即平均水平),决定分布曲线在横轴的偏移 位置。当 一定后, μ 增大,曲线右移; 反之 μ减小,曲线左移。是变异参数,决定分布曲 线的形态。 越大,曲线的形态越“矮胖”, 表示数据分布越分散; 越小,曲线的形态越 “瘦高”,表示数据分布越集中。
(四)百分位数(percentile)
百分位数是一种位置指标,用PX表示。 百分位数是一个有序数列百等分的 分割值。第50百分位数(P50)也就是中位 数,中位数是一个特定的百分位数。 计算百分位数的计算公式为:
PX i L n x% fX

f
L
计算百分位数一般需计算累计频率 (%),为各组段累计频数除以总例数n。
加权法
1.列出频数表 2.计算组中值 组中值X,计算方法是将本组下限和 下组下限相加除以2。 3.用加权法计算均数: fX f X f X ... f X X f f ... f f
1 1 2 2 m m 1 2 m
式中f为各组的频数,x为各组的组中值。
(二)几何均数(geometric mean)
(一)算术均数 ( mean)
算术均数 简称均数。用于说明一组观测值的 趋中位置或平均水平。 均数用于对称分布、正态或近似正 态分布的资料。x表示变量X的样本均数, (希腊字母)表示总体均数。 常用的计算方法是直接法和加权法。
直接法
当样本含量较小时,可选用此法。 有n个观察值,分别为X1,X2,……Xn, 均数的计算公式为:
n1
S

上式n-1称为自由度。
n1
n
例题
[例1-9]对例1-8的数据计算标准差 甲组:n=5, ΣX=98+99+100+101+102=500 ΣX2=982+992+1002+1012+1022=50010
S甲
2 500 50010
51
5
1.58
S乙
2 500 51000
1

例题
[例1-4]某地102名健康人的钩端螺旋体血 清抗体滴度如表1-2,计算平均滴度。 f lg X 272.026 lg G lg 464 f 102
1 1
102 名健康人的钩端螺旋体血清滴度的几 何平均滴度为1:464
描述离散趋势的常用指标有全距、四分位 间距、方差和标准差等。
一、全距(range)
亦称极差,用R表示,是一组观察值 中最大值与最小值之差,反映个体差异 的范围。全距大,说明变异度大;反之, 说明变异度小。 如例1-8中甲组全距为 4,乙组全距为 40,表明乙组变异度大。 但全距易受个别数据的影响,稳定 性较差,抽样误差较大,而且还受n大小 的影响,一般n越大,全距越大。
标准正态分布
(standard normal distribution) 标准正态分布:是均数为0、标准差为1的 正态分布,即=0、=1 亦称u分布。 u变换 :将均数为μ ,标准差为的正态分 布变换成标准正态分布。 u=(X-)/
正态分布的应用
医学参考值范围的估计
1.正态分布法估计参考值范围公式为:
六、变异系数
(coefficient of variation)
当单位不同时,均数相差较大时,用标准 差就不适宜了,此时用变异系数更好。 变异系数是一种相对的离散程度指标,它 无单位,用CV表示,其计算公式为:
CV S 100% X
例题
[ 例 1-11 ] 某地 20 岁男子 100 人,其身高均数为 166.06cm,标准差为 4.95cm ,其体重均数为 53.72kg ,标准差为 4.96kg 。请比较何者变异 度较大。 由于两者度量单位不同,不能直接比较标准差, 而应比较变异系数。 身高 CV 4.95 100% 2.98%
表14-1 102名健康人的钩端螺旋体 血清抗体平均滴度的计算
抗体滴度 人数 f (2) 7 19 34 29 13 102 滴度倒 数X lgX flgX
(1) 1:100 1:200 1:400 1:800 1:1600 合计
(3) 100 200 400 800 1600
(4) 2.000 2.301 2.602 2.903 3.204
lg 2 lg 4 lg 8 lg 8 lg16 lg 32 1 G lg1 lg 0.9031 8 6
几何平均滴度为1:8
加权法
加权法: 当样本含量较大时,可将资料整理 成频数表,用下式计算:
f lg X G lg f
二、四分位间距
(inter-quartile range)
四分位间距是两个特定的百分位数之 差,即第75百分数P75(上四分位数QU)和 第25百分位数P25(下四分位数QL)之差, 用Q表示,适用于任何分布的计量资料, 尤其适用于偏态分布的资料.
Q= QU - QL
四分位间距比全距稳定,但仍然未 考虑到每个观察值的变异。
三、平均偏差与离均差平方和
平均偏差(mean difference) :每个观测值与 均数之差的绝对值相加,然后取平均。 离均差平方和:为了避免使用绝对值,采 用取平方的方法。 2 ( X ) 离均差平方和=
四、方差(variance)
为了消除观察值的总个数N的影响, 2 ( X ) 将 除以N,这就是总体方差,用 σ2表示。
(5)=(2)(4) 14.000 43.719 88.468 84.187 41.652 272.206
(三)中位数(median)
将一组观察值从小到大按顺序排列,位 次居中的观察值就称中位数。 中位数适用于任何一种分布的计量 数据,一般多用于描述偏态分布或数据 一端无界资料的集中趋势。中位数用M 表示。
直接法
样本含量较小时,可根据下式计算: M X n1 n为奇数时 2 n为偶数时
M X n X n 2 1 2 2
n 1 2
上式中n为一组观察值的总个数, 、 n n 及 1 均为下标,表示有序数列中观察 2 2 值的位次。
频数表法
样本含量较大时用此法
i n M L fL f2
L为本组(中位数所在组)下限, i为本组组距, f为本组频数, ΣfL为上一组的累计频数。 本组位置可根据累计频数的数值来判断。当某一 组的累计频数首先超过n/2时或累计频率首先 超过50%时,即定为本组。
例题
正态曲线下面积的分布规律
曲线下横轴上的总面积为100%或1。 下面是应用较多的三个区间的面积分布规 律。 (1)正态分布区间(-,+)下的面积,即 范围的面积占总面积为68.27%; (2)正态分布区间(-1.96,+1.96),即 1.96范围的面积占总面积为95.00%; (3)正态分布区间(-2.58,+2.58),即 2.58范围的面积为99.00%。(如图1-2)
预 防 医 学
Preventive Medicine
预防医学教研室 2004.06
第十四章
数值变量的统 计描述 蔡泳
频数表的编制方法
1.找全距:Range = Max - Min 2. 划分组段 (1)确定组数:8—15组,一般取10组 (2)确定组距:组距(i)= 全距 / 组段数 ( 3 )确定各组段的上下限:各组的起点为下限, 终点为上限。 要求:(1)第一组含最小值 (2)最后组含最大值 3.归纳计数:划计法 4. 计算频率与累计频率
51
5
15.81
标准差应用

表示观察值的变异程度
在两组(或几组)均数相近、单位相同的条 件下,标准差大,表示变量值的变异度大,均 数的代表性较差;反之,标准差小,表示变量 组变异度小,数据多集中在均数周围,则均数 的代表性较好。 计算变异系数 结合均数描述频数分布的特征和制定医学参考 值范围。 计算标准误

2
(X ) N
2
对于样本资料,在对离均差平方和 取平均时分母用n-1代替n。
五、标准差(standard deviation)
方差的单位是原度量单位(如kg)的平方, 把总体方差开平方,这就是总体标准差,度量 单位与原始观察值一致,即 2

(X )
N
S
对于样本资料,样本标准差的计算公式为: 2 2 X 2 (X X) 可改写为: X
几何均数 适用于对数正态分布的资料,例如 抗体的平均滴度和平均效价。几何均数 用G表示。 例:5人的抗体滴度为: 1:10,1:100,1:1000,1:10000,1: 100000
直接法
直接法: 样本含量较小时,选用此法。有n个观察 值X1,X2,…Xn,几何均数的计算公式为:
G n X1 X 2 X n
相关文档
最新文档