医学统计学第四章 定量资料的统计描述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
¾
¾
8
③ 统计各组频数
采用计算机或手工划记汇总,得到各组段相 应的频数。
9
根据这些数据编制成的频数表能显示出这组数据分布的特征
表4.2 组段(cm) (1) 0.980~ 1.110~ 1.240~ 1.370~ 1.500~ 1.630~ 1.760~ 1.890~ 2.020~ 2.150~ 2.280~2.410 合计 频数( f ) (2) 5 5 7 14 19 29 15 12 6 4 4 120 2005年某市120名9岁男孩肺活量(L)频数分布 频率(%) (3) 4.17 4.17 5.83 11.67 15.83 24.17 12.50 10.00 5.00 3.33 3.33 100.00 累计频数 (4) 5 10 17 31 50 79 94 106 112 116 120 — 累计频率(%) (4) 4.17 8.33 14.17 25.83 41.67 65.83 78.33 88.33 93.33 96.67 100.00 —
−1
lg 4 + lg 8 + ... + lg 64 ) = lg −1 (1.2041) = 16 ( 5
该5份血清的平均滴度为1:16。
28
2.频数表法(加权法)
当资料中出现相同观察值的个数较多时,或资料 为频数表资料,则用加权法计算几何均数。 变量及频数如下,符合几何均数的适用条件: X1,X2,… Xk f1 , f2,… fk 则几何平均数G为:
X1, X2, ⋅⋅⋅, Xk:频数表资料中各组段的组中值; f1, f2, ⋅⋅⋅, fk:相应组段的频数。
23
表4.2 120名9岁男孩肺活量均数的计算
肺活量组段 (1) 0.980~ 1.110~ 1.240~ 1.370~ 1.500~ . . . 频数f (2) 5 5 7 14 19 . . . 组中值x (3) 1.045 1.175 1.310 1.435 1.565 . . . fx (4)=(2)(3) 5.225 5.875 9.170 20.09 29.735 . . .
f lgX
(5) 2.4084 8.1279 25.2861 30.1020 21.6744 10.5360 9.6328 107.7676
G = lg −1 (
ቤተ መጻሕፍቲ ባይዱ
Σf lg X 107.7676 ) = lg −1 ( ) = lg −1 (1.4369) = 27.35 Σf 75
31
其血凝抗体滴度的平均滴度为1:27.35。
一个位置聚集或集中的倾向。例如本例,肺活 量有大有小,但中等居多,此为集中趋势。
离散程度 (dispersion) :一组数据的分散性或变
异度。离 “ 中心 ” 位置越远,频数越小;即少数 人具有较大或较小的肺活量,表现了肺活量分 布的离散趋势。
13
集中趋势:高峰组段的位置 离散趋势:观察值的分布范围
14
2)频数分布的类型
¾对称分布:集中位置在正中,左右两侧大体对称。
¾偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
* 分布类型不同,采用的统计方法不同
15
实例
1.对称分布:
25
频数分布高峰(集 中位置)位于中部、 两边低、左右对称。
20 频 数
15
10
5
0
0.50 0.70 0.90 1.10 1.30 1.50 1.70 1.90 血清甘油三酯(mmol/L)
你能看出资料有什么规律?
5
表 2005年某市120名9岁男孩肺活量(L)频数分布 组段(cm) 0.980~ 1.110~ 1.240~ 1.370~ 1.500~ 1.630~ 1.760~ 1.890~ 2.020~ 2.150~ 2.280~2.410 合计 频数( f ) 5 5 7 14 19 29 15 12 6 4 4 120
lgX ⎛ lgX 1 +lgX 1 +L n⎞ G= X1X2 LXn = lg ⎜ ⎟ n ⎝ ⎠ ⎛ lgX ⎞ −1 ∑ ⎟ = lg ⎜ ⎜ n ⎟ ⎝ ⎠
n −1
27
例 有5份血清的滴度为1:4,1:8,1:16,1:32, 1:64,求平均滴度?
−1
G = lg
lg X ∑ ( ) = lg n
适用于数据经过对数变换后呈正态分布的资 料,也可用于观察值之间呈倍数或近似倍数变 化(等比关系)的资料。 如医学实验中的抗体滴度;食品中农药含量; 疾病的潜伏期等。 计算方法有:直接法和频数表法。
26
直接法
由原始变量值直接计算几何均数。 设变量值为X1, X2 … Xn,几何均数G为:
G =
( f 1 + f 2 + ⋅⋅⋅ + f k )
X
1
f1
X
f2
2
⋅⋅⋅ X
k
fk
29
f1 lg X1 + f 2 lg X 2 + ⋅ ⋅ ⋅ + f k lg X k ∑ f lg X = lgG = f1 + f 2 + ⋅ ⋅ ⋅ + f k ∑f
G = lg
−1
∑ (
f lg X
∑
应用注意事项:
适用资料:①经对数变换后呈正态或近 似正态分布的资料;②用于等比资料; 注意: 根据对数的性质:零与负数没有对数
1)变量值不能有0; 2)变量值不能同时有正值与负值。
32
3.中位数(median)
一组观察值从小到大排列,位次居中的观 察值即中位数,是一个位置指标。 符号:P50 或M
36
计算步骤
6
编制步骤: ① 确定全距(range)
全部观察值中最大值与最小值之差,用符号 R表示。又称极差。本例极差: R = 2.406-0.980 = 1.417(L )。
② 划分组段
¾
确定组数:根据观察单位的多少及其全距来定,组 数不宜太多或者太少。 确定组距:一般采用等距分组,组距=R/组数。本 例i = R /12=1.417/11=0.129≈0.130 确定各组段上下限:每个组段的起点称为该组的下 限(low limit),终点称为上限(upper limit)。第一组 段必须包含最小值。最后一个组段上限必须包含最 大值,并且同时写出其下限与上限。其它组段上限 值忽略。注意各组段不能重叠。
4
1.连续性变量的频数表的编制
例 4.2 在某市 2005 年进行的小学生体质评价研究 中,测定了 120 名 9 岁男孩的肺活量 (L) ,资料如 下,根据该资料制作频数表。
1.706 1.326 1.632 1.876 2.161 1.684 1.533 1.175 1.867 1.676 2.091 1.847 1.213 1.277 0.989 2.235 1.665 1.289 1.724 1.548 1.608 1.890 1.733 1.796 1.203 1.736 1.450 1.633 1.555 1.352 … 1.291 1.796 1.647 1.415 1.873 0.996 1.936 1.526 1.424 1.589 1.670 1.056 1.969 1.481 2.406 2.123 1.988 1.512 1.030 1.886 1.930 1.725 1.374 1.654 1.663 1.438 1.645 1.214 1.184 1.735
图12-1 160名正常成年女子的血清甘油三酯的频数分布图
2.正偏态分布:
集中位置偏向数值小 的一侧,高峰偏于左 侧,长尾向右延伸。
图4.2
2004年我国麻疹患者的年龄分布
17
3.负偏态分布:
集中位置偏向数值大 的一侧,高峰偏于右 侧,长尾向左延伸。
频 数
评分 图4.3 某市219名乳腺癌患者术后康复期生存质量评分的分布
f
)
z例4.5
某医院预防保健科用流脑疫苗为75名儿 童进行免疫接种,1个月后测定其抗体滴度如表 4.3所示,求平均滴度。
30
表4.3 75名儿童的平均抗体滴度计算表
抗体滴度 (1) 1:4 1:8 1:16 1:32 1:64 1:128 1:256 合 计 滴度倒数X (2) 4 8 16 32 64 128 256 lgX (3) 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 人数f (4) 4 9 21 20 12 5 4 75
24
均数的应用范围及条件:
1.均数反映一组同质观察值的平均水平,并可作 为样本的代表值与其他样本进行比较。 2.均数适用于单峰对称分布,尤其是正态分布资 料,这时均数位于分布的中央,能反映观察值 的集中趋势,即其平均水平。也可用于近似正 态分布。
25
2、几何均数,geometric mean,G
18
(三)频数分布表和频数分布图的用途 1.反映频数分布的两个重要特征;
集中趋势:变量值的中心数值或中心位置所在。 离散趋势:变量值围绕中心数值或中心位置的分布情况。
2.揭示资料的分布类型;
对称分布:频数分布高峰位于中部; 偏态分布:高峰偏于一侧。
3.便于发现某些特大或特小的可疑值; 4.便于进一步计算指标和统计分析处理。
第四章 定量资料的统计分析
吴思英 流行病与卫生统计学系
统计分析的内容
¾ 统计描述:是用统计表、统计图、统计指标
来描述资料的分布规律及其数量特征。
▲ 把握资料的基本特征; ▲ 为统计分析打下基础。
¾ 统计推断:在医学科学研究中通常应用抽样
研究的方法,即对总体中随机抽取的部分观 察单位(样本)进行研究,然后用样本信息推 断总体特征,即统计推断。
X1 + X 2 + ⋅ ⋅ ⋅ + X n ΣX X= = n n
见教材P43,例4.3 (自学)
22
(2)频数表法(加权法)
当观察值个数较多时,可先把原始资料分 组,列出频数表,计算均数时将各组频数乘以相 应组的组中值,逐个相加求和,除以总例数。
f 1 X 1 + f 2 X 2 + ⋅⋅⋅ + f k X k ΣfX = X= f 1 + f 2 + ⋅⋅⋅ + f k Σf
33
中位数计算方法
(1)
直接法:将观察值由小到大排列,按下式 计算。
n 为奇数时 M = X
⎛ n+1 ⎞ ⎟ ⎜ 2 ⎠ ⎝
,
n为偶数时 , ⎛ ⎞ M = ⎜ Xn + X⎛ n ⎞ ⎟ 2 ⎜ 2 ⎜ +1 ⎟ ⎟ ⎝2 ⎠⎠ ⎝
34
例某病患者 9 名,其发病的潜伏期(天)为: 3 , 4 , 4 , 5 , 6,7,7,9,11 ,求中位数。 本例n=9,为奇数,按式(9.6)得: M = X ( n +1) 2 = X 5 = 6 (天) 若在该例基础上再继续观察,在第20天又发现1例患者,则 n=10,为偶数,按式(2.7)得:
2
第一节 定量资料的统计描述
一、频数分布表和频数分布图 二、集中趋势的统计描述 三、离散趋势的统计描述
(一)频数分布表
对一个随机事件进行重复观察,其中某变 量值出现的次数被称作频数(frequency)。 把变量值及相对应的频数列成表格即频数分布 表,简称频数表(frequency table)。 在观察值个数(即样本含量n)较多时,为 了解一组同质观察值的分布规律和便于指标的 计算,可编制频数分布表。
19
二、集中趋势的描述
描述一组同质观察值的平均水平或中 心位置的常用的指标有算术均数、几 何均数、中位数等。
20
1、算术均数,mean
适用条件:单峰对称分布,特别是正态或近 似正态分布的定量资料。 符号: X 表示样本均数,希腊字母 μ 表示 总体均数。
21
计算方法:
(1)直接法(小样本)
10
(二)频数分布图
以观测变量为横轴,频数(或频率)为纵轴所 作的直方图,称为频数分布图。横轴依次以等距 标出各组段的起点,在各组段上方分别绘制宽度 等于组距、高度等于相应频数的长方形。 用途与频数表类似,但更直观、形象。
11
图4.1
2005年某市120名9岁男孩肺活量频数分布
12
1)频数分布的特征 集中趋势 ( central tendency ):一组数据向某
1 M = ( X n + X n )=(X +X )/2=(6+7)/2=6.5(天) 5 6 +1 2 2 2
35
(2)频数表法
i M = LM + (n × 50% − ∑ f L ) fM
L为P50所在下限;i 为该组的组距;fM 为该组频
∑fL 为比该组段略小的组段的累计频数。 数;