人群健康研究的统计学方法-资料的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
出它的优越性。
缺点:
? 掉失了大量信息,其敏感性不够。
(三) 离散趋势指标
例 有3组同龄男孩体重(kg)如下,其 体重均数 X都是30 (kg),试分析 离散程度。
甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
离散程度(或变异程度)
?指数据参差不齐的程度,反映资料的 离散趋势。
(奇数)
1,3,5,7,18,20 ( 偶数)
?计算
?n为奇数时
?n为偶数时
M ? X ?? n ? 1 ?? ?2?
?
?
M ? ?X ? X ? 2 ??? ? ? ?
n 2
??? ?
??? ?
n 2
?
1 ??? ?
M计算方法
?例: 9人某病潜伏期(天) 分别为3,4,4,5,6
,7,7,19,19,求中 位数。
f lgX 1.8062 7.2246 7.5255 18.0620 8.4288 4.8164 2.7093
∑flgX=50.58
??
G ? lg?1 ?
f ?lgX ??
?? ? f ??
?
? G ? lg?1 ?? ? ?
f
?lgX f
? ??? ?
lg?1?? 50.58 ?? ? ? 30 ?
?离散趋势,tendency of dispersion
? 指变量值围绕中心数值或中心位置的分 布情况。
4 频数分布的类型
?对称分布:集中位置居中,左右两边对称
(特例:正态分布) ?偏态分布:正偏态分布 (峰偏左)
负偏态分布
对称分布
正偏态分布
负偏态分布
5、频数表的用途
?揭示频数的分布特征和分布类型; ?可以代替原始资料,便于计算和分析; ?便于发现某些特大或特小的可疑值。
甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
标准差 3.16 4.74 2.92
甲组:
∑X=26+28+30+32+34=150 ∑X2=262+282+302+322+342=4540
? ? ? ? s ?
X2?
X 2/n ?
4540 ? 1502 / 5 ? 3.16
第 三节
资料的 统计描述
一 计量资料的统计描述
?频数分布 ?集中趋势指标 ?离散趋势指标
(一) 频数分布
一、频数分布表
简称频数表(frequency table)
?例9-7 (P187)
1. 频数表的编制
(1)计算极差(range ):即最大值与最小值之差,又称为 全距。
本例极差: R=5.91-3.86=2.05(×1012/L) (2) 确定组数、组距和组限:根据研究目的和样本含量n确 定。组数通常分 8-15个组,为方便计,组距参考极差的十分 之一, 再略加调整。本例:i= R /10=2.05/10=0.205≈0.20。
?将反映平均水平与离散程度的指标结 合起来使用,可全面地描述数据的分 布规律。
1 极差( Range )
?极差= 最大值 – 最小值 ?优点:简单明了 ?缺点:不能反映组内其他数据的变
异,样本含量相差较大时,不宜用 极差比较分布的离散程度。
2 四分位数间距 inter-quartile range
48.5
?30名麻疹易感儿童接种麻疹疫苗一个 月后血凝抑制抗体滴度为1:48.5
?同一组资料求得的几何均数小于均数。
(三)中位数 Median, M
将一组观察值从小到大按顺序排列,位次 居中的观察值,即为中位数。 ?一半的值比M小,一半的值比M大。
?50 %
?50 %
?X
?M
例:1,3,5,7,18
合计
101
—— 409.75 1705.09
s ? 1705 .09 ? ?409 .75 ?2 / 101 ? 0.654 ( mmol / L )
101 ? 1
标准差的应用:
?反映一组观察值的变异程度; ?衡量均数的代表性; ?结合样本均数描述频数分布特征; ?计算变异系数和标准误;
?适用:数据呈正偏态分布,经对数转换后 呈正态分布。多用于观察值之间呈倍数关 系,如抗体滴度
?计算方法 ?直接法 ?加权法
1. 直接法
G ? n X1X2 ...Xn
? lg?1?? lgX1 ? lgX1 ? ... ? lgXn ??
?
n
?
? ? lg?1??? ?
lgX n
??? ?
用直接法计算G
例:有8份血清的抗体效价为1:5,1:10,1:20 ,1:40,1:80, 1:160 ,1:320,1:640。
求平均效价。
lg G ? lg 5 ? lg 10 ? lg 20 ? lg 40 ? lg 80 ? lg160 ? 320 ? 640 8
? 1.7526 G ? lg?1 1.7526 ? 56.57
组距=极差/拟分组数 组限:每个组段的起点为上限,终点为下限;第一组段要 包括最小值,最后一个组段必须包含最大值。 (3) 列表划记:用划记法将所有数据归纳到各组段,得到 各组段的频数。
2、频数分布图(graph of frequency distribution)
Histogram
30
25
20
15
σ ? ? ?X ? μ?2 N
一般? 未知,常常用 X 来估计
?数理统计证明,如用样本的变量个 数n来代替N,计算出的样本方差比实
际? 2低,需要用n-1校正,得样本方差
S2。开根号得样本标准差s。
? ?2
s2 ? ? X ? X
n?1
s?
?
?X ?
?2
X
n?1
自由度,degree of freedom
5.60~5.90 合计
频数 f 1
3 6 8 17 20 17 12 9 5 2
1 101
组中值 X 2.45
2.75 3.05 3.35 3.65 3.95 4.25 4.55 4.85 5.15 5.45
5.75 ——
fX 2.45
8.25 18.30 26.80 62.05 79.00 72.25 54.60 43.65 25.75 10.90
?方差计算公式中的n-1被称为自由度,它描 述了当 X 选定时,n个X中能自由变动的X (变量值)的个数。
?例:某样本含有5个数据,要求∑X=15。则 在自由确定了四个数据后,第5个数据只能 是15-(x1+x2+x3+x4) 。 即有4个数据可以自由 变动,其自由度=4 。
?推而广之,任何统计量的自由度? =n-k ,k 为限制条件的个数。
30 名麻疹易感儿童血凝抑制抗体滴度
抗体滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
人数f 2 6 5 10 4 2 1 30
滴度倒数X
8 16 32 64 128 256 512
lgX 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093
M ? X ?? n ? 1 ?? ?2? ? X 5 ? 6 ( day )
?例: 6名新生儿身长(cm) 分别为50.1,52.0,53.0
,55.0,55.0,56.0,求 中位数。
?
?
M
?
? ??
X
?? ?
n 2
?? ?
?
X
?? ?
n 2
?
1
?? ?
? ??
2
? (X3 ? X4)/2 ? (53.0 ? 55.0) / 2
1、算术均数,简称均数
(arithmetic mean/mean)
? 均数是算术均数的简称。 ?总体均数用希腊字母μ(缪,mu) 表示
?样本均数X(X bar)表示。
均数的应用条件
?主要用于对称性或近似对称性分 布的资料;
?尤其是在正态分布或近似正态分 布上的应用。
计算方法 1.直接法
? X ? X1 ? X 2 ? ? X n ? X
?自由度:是随机变量可以“自由”取值的 个数。
标准差 standard deviation
?总体标准差
σ?
?样本标准差
s ? ? ?X - X?2 n?1
? ?X ? μ ?2
N
s?
?
X 2 ? ??
?2
X /n
n?1
s ? ? fX 2 ? ?? fX ?2 / ? f
? f ?1
标准差的计算
f1 ? f2 ? f3 ? ? fk
?f
? Xj 为各组的组中值。
组中值等于该组的上限加下限之和除以 2。
? fj 为各组的频数。 ?101名正常成年女子的血清总胆固醇 均值为:
? X = 409.75/101 =4.06( mmol/L )
(二)几何均数 Geometric mean ,G
?描述一组呈倍数(等比)关系的观察值的 平均水平。
?四分位数间距: P75 - P25 或 QU - QL 比极差稳定,但仍未考虑每个数据的大小 。常和中位数结合使用描述数据的分布规 律。
3 方差和标准差
?离均差平方和: ? ?X ? μ ?2
?考虑每个观察值,但受N的影响。
?对离均差平方和求均数,得总体 方差? 2 ,开根号得标准差? 。
σ2 ? ? ?X ? μ?2 N
Leabharlann Baidu
10
Frequency
5 0
Std. D ev = .66 M ean = 4.03 N = 101.00
2.45
3.65
4.85
6.05
3.05
4.25
5.45
血清总 胆固醇 (mmol /L)
3 频数分布的两个特征
?集中趋势,central tendency
? 指变量值的中心数值或中心位置所在。
n?1
5?1
用频数表法计算标准差
s ? ? fX 2 ? ?? fX ?2 / ? f
? f ?1
组段 频数f 组中值X f X f X2
2.30~
1
2.60~
3
2.90~
6
3.20~
8
3.50 ~
17
2.45 2.45 6.00 2.75 8.25 22.69 3.05 18.30 55.82 3.35 26.80 89.78 3.65 62.05 226.48
? 54(cm )
中位数的应用条件
? 偏态分布或分布状态不明的资料; ? 观察值中有个别过小或过大值的资料 ? 分布的一端或两端无确定的数值;
(如:>50, 或 <10)
注意:在完全对称的单峰曲线分布中,同一 组资料的均数与中位数相同, Mean = Median
中位数的优缺点
优点:
? 不受个别特大或特小的观察值影响; ? 其它平均数不宜使用时,中位数就显示
(二) 集中趋势的描述
?平均数(average ):用于观察一组同质变 量值的平均水平/集中位置。亦称中心位置 指标。它不但给人一个简明概括的印象, 而且便于事物间的分析比较。
?常用的平均数
?算术均数 (arithmetic mean/mean) ?几何均数 (geometric mean) ?中位数 (median)
3.80 ~
20
4.10 ~
17
4.40 ~
12
4.70 ~
9
5.00 ~
5
5.30~
2
5.60~5.90 1
3.95 4.25 4.55 4.85 5.15 5.45
5.75
79.00 72.25 54.60 43.65 25.75 10.90 5.75
312.05 307.06 248.43 211.70 132.61 59.41 33.06
5.75 409.75
f X2 6.00
22.69 55.82 89.78 226.48 312.05 307.06 248.43 211.70 132.61 59.41
33.06 1705.09
加权法计算均数:
? X ? f1 X1 ? f2 X 2 ? f3 X 3 ? ? fk X k ?
fX
n
n
? Σ:希腊字母(sigma) ,求和符号
? 例9.2 有8名正常人的空腹血糖值( mmol/L ):
6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9
6.2+5.4+5.7+5.3+6.1+6.0+5.8+5.9
X=
=5.8
8
2.加权法
组段 2.30~
2.60~ 2.90~ 3.20~ 3.50 ~ 3.80 ~ 4.10 ~ 4.40 ~ 4.70 ~ 5.00 ~ 5.30~
?将各效价的倒数代入公式,得该 8份血清的平均 抗体效价为 1:56.57,近似为1:57 ?注意:变量值不能有 0
2.加权法
??
G ? lg?1 ?
f ?lgX ??
?? ? f ??
?式中f为频数。
用加权法计算G
?例 30名麻疹易感儿童接种麻疹疫苗一 个月后,血凝抑制抗体滴度如下表所示 ,试求其平均抗体滴度。
?百分位数:指把数据从小到大排列后处于 第X百分位置的数值。它将全部数据分为 两据数部小是分于一,P个X,特在有定不1的包-X百括%的分PX的数位全据数部大P50数于。据PX%中。有中X%位数
?四分位数:下四分位数 P25;上四分位数 P75
P0 —— P25 —— P50 —— P75 —— P100
缺点:
? 掉失了大量信息,其敏感性不够。
(三) 离散趋势指标
例 有3组同龄男孩体重(kg)如下,其 体重均数 X都是30 (kg),试分析 离散程度。
甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
离散程度(或变异程度)
?指数据参差不齐的程度,反映资料的 离散趋势。
(奇数)
1,3,5,7,18,20 ( 偶数)
?计算
?n为奇数时
?n为偶数时
M ? X ?? n ? 1 ?? ?2?
?
?
M ? ?X ? X ? 2 ??? ? ? ?
n 2
??? ?
??? ?
n 2
?
1 ??? ?
M计算方法
?例: 9人某病潜伏期(天) 分别为3,4,4,5,6
,7,7,19,19,求中 位数。
f lgX 1.8062 7.2246 7.5255 18.0620 8.4288 4.8164 2.7093
∑flgX=50.58
??
G ? lg?1 ?
f ?lgX ??
?? ? f ??
?
? G ? lg?1 ?? ? ?
f
?lgX f
? ??? ?
lg?1?? 50.58 ?? ? ? 30 ?
?离散趋势,tendency of dispersion
? 指变量值围绕中心数值或中心位置的分 布情况。
4 频数分布的类型
?对称分布:集中位置居中,左右两边对称
(特例:正态分布) ?偏态分布:正偏态分布 (峰偏左)
负偏态分布
对称分布
正偏态分布
负偏态分布
5、频数表的用途
?揭示频数的分布特征和分布类型; ?可以代替原始资料,便于计算和分析; ?便于发现某些特大或特小的可疑值。
甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
标准差 3.16 4.74 2.92
甲组:
∑X=26+28+30+32+34=150 ∑X2=262+282+302+322+342=4540
? ? ? ? s ?
X2?
X 2/n ?
4540 ? 1502 / 5 ? 3.16
第 三节
资料的 统计描述
一 计量资料的统计描述
?频数分布 ?集中趋势指标 ?离散趋势指标
(一) 频数分布
一、频数分布表
简称频数表(frequency table)
?例9-7 (P187)
1. 频数表的编制
(1)计算极差(range ):即最大值与最小值之差,又称为 全距。
本例极差: R=5.91-3.86=2.05(×1012/L) (2) 确定组数、组距和组限:根据研究目的和样本含量n确 定。组数通常分 8-15个组,为方便计,组距参考极差的十分 之一, 再略加调整。本例:i= R /10=2.05/10=0.205≈0.20。
?将反映平均水平与离散程度的指标结 合起来使用,可全面地描述数据的分 布规律。
1 极差( Range )
?极差= 最大值 – 最小值 ?优点:简单明了 ?缺点:不能反映组内其他数据的变
异,样本含量相差较大时,不宜用 极差比较分布的离散程度。
2 四分位数间距 inter-quartile range
48.5
?30名麻疹易感儿童接种麻疹疫苗一个 月后血凝抑制抗体滴度为1:48.5
?同一组资料求得的几何均数小于均数。
(三)中位数 Median, M
将一组观察值从小到大按顺序排列,位次 居中的观察值,即为中位数。 ?一半的值比M小,一半的值比M大。
?50 %
?50 %
?X
?M
例:1,3,5,7,18
合计
101
—— 409.75 1705.09
s ? 1705 .09 ? ?409 .75 ?2 / 101 ? 0.654 ( mmol / L )
101 ? 1
标准差的应用:
?反映一组观察值的变异程度; ?衡量均数的代表性; ?结合样本均数描述频数分布特征; ?计算变异系数和标准误;
?适用:数据呈正偏态分布,经对数转换后 呈正态分布。多用于观察值之间呈倍数关 系,如抗体滴度
?计算方法 ?直接法 ?加权法
1. 直接法
G ? n X1X2 ...Xn
? lg?1?? lgX1 ? lgX1 ? ... ? lgXn ??
?
n
?
? ? lg?1??? ?
lgX n
??? ?
用直接法计算G
例:有8份血清的抗体效价为1:5,1:10,1:20 ,1:40,1:80, 1:160 ,1:320,1:640。
求平均效价。
lg G ? lg 5 ? lg 10 ? lg 20 ? lg 40 ? lg 80 ? lg160 ? 320 ? 640 8
? 1.7526 G ? lg?1 1.7526 ? 56.57
组距=极差/拟分组数 组限:每个组段的起点为上限,终点为下限;第一组段要 包括最小值,最后一个组段必须包含最大值。 (3) 列表划记:用划记法将所有数据归纳到各组段,得到 各组段的频数。
2、频数分布图(graph of frequency distribution)
Histogram
30
25
20
15
σ ? ? ?X ? μ?2 N
一般? 未知,常常用 X 来估计
?数理统计证明,如用样本的变量个 数n来代替N,计算出的样本方差比实
际? 2低,需要用n-1校正,得样本方差
S2。开根号得样本标准差s。
? ?2
s2 ? ? X ? X
n?1
s?
?
?X ?
?2
X
n?1
自由度,degree of freedom
5.60~5.90 合计
频数 f 1
3 6 8 17 20 17 12 9 5 2
1 101
组中值 X 2.45
2.75 3.05 3.35 3.65 3.95 4.25 4.55 4.85 5.15 5.45
5.75 ——
fX 2.45
8.25 18.30 26.80 62.05 79.00 72.25 54.60 43.65 25.75 10.90
?方差计算公式中的n-1被称为自由度,它描 述了当 X 选定时,n个X中能自由变动的X (变量值)的个数。
?例:某样本含有5个数据,要求∑X=15。则 在自由确定了四个数据后,第5个数据只能 是15-(x1+x2+x3+x4) 。 即有4个数据可以自由 变动,其自由度=4 。
?推而广之,任何统计量的自由度? =n-k ,k 为限制条件的个数。
30 名麻疹易感儿童血凝抑制抗体滴度
抗体滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
人数f 2 6 5 10 4 2 1 30
滴度倒数X
8 16 32 64 128 256 512
lgX 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093
M ? X ?? n ? 1 ?? ?2? ? X 5 ? 6 ( day )
?例: 6名新生儿身长(cm) 分别为50.1,52.0,53.0
,55.0,55.0,56.0,求 中位数。
?
?
M
?
? ??
X
?? ?
n 2
?? ?
?
X
?? ?
n 2
?
1
?? ?
? ??
2
? (X3 ? X4)/2 ? (53.0 ? 55.0) / 2
1、算术均数,简称均数
(arithmetic mean/mean)
? 均数是算术均数的简称。 ?总体均数用希腊字母μ(缪,mu) 表示
?样本均数X(X bar)表示。
均数的应用条件
?主要用于对称性或近似对称性分 布的资料;
?尤其是在正态分布或近似正态分 布上的应用。
计算方法 1.直接法
? X ? X1 ? X 2 ? ? X n ? X
?自由度:是随机变量可以“自由”取值的 个数。
标准差 standard deviation
?总体标准差
σ?
?样本标准差
s ? ? ?X - X?2 n?1
? ?X ? μ ?2
N
s?
?
X 2 ? ??
?2
X /n
n?1
s ? ? fX 2 ? ?? fX ?2 / ? f
? f ?1
标准差的计算
f1 ? f2 ? f3 ? ? fk
?f
? Xj 为各组的组中值。
组中值等于该组的上限加下限之和除以 2。
? fj 为各组的频数。 ?101名正常成年女子的血清总胆固醇 均值为:
? X = 409.75/101 =4.06( mmol/L )
(二)几何均数 Geometric mean ,G
?描述一组呈倍数(等比)关系的观察值的 平均水平。
?四分位数间距: P75 - P25 或 QU - QL 比极差稳定,但仍未考虑每个数据的大小 。常和中位数结合使用描述数据的分布规 律。
3 方差和标准差
?离均差平方和: ? ?X ? μ ?2
?考虑每个观察值,但受N的影响。
?对离均差平方和求均数,得总体 方差? 2 ,开根号得标准差? 。
σ2 ? ? ?X ? μ?2 N
Leabharlann Baidu
10
Frequency
5 0
Std. D ev = .66 M ean = 4.03 N = 101.00
2.45
3.65
4.85
6.05
3.05
4.25
5.45
血清总 胆固醇 (mmol /L)
3 频数分布的两个特征
?集中趋势,central tendency
? 指变量值的中心数值或中心位置所在。
n?1
5?1
用频数表法计算标准差
s ? ? fX 2 ? ?? fX ?2 / ? f
? f ?1
组段 频数f 组中值X f X f X2
2.30~
1
2.60~
3
2.90~
6
3.20~
8
3.50 ~
17
2.45 2.45 6.00 2.75 8.25 22.69 3.05 18.30 55.82 3.35 26.80 89.78 3.65 62.05 226.48
? 54(cm )
中位数的应用条件
? 偏态分布或分布状态不明的资料; ? 观察值中有个别过小或过大值的资料 ? 分布的一端或两端无确定的数值;
(如:>50, 或 <10)
注意:在完全对称的单峰曲线分布中,同一 组资料的均数与中位数相同, Mean = Median
中位数的优缺点
优点:
? 不受个别特大或特小的观察值影响; ? 其它平均数不宜使用时,中位数就显示
(二) 集中趋势的描述
?平均数(average ):用于观察一组同质变 量值的平均水平/集中位置。亦称中心位置 指标。它不但给人一个简明概括的印象, 而且便于事物间的分析比较。
?常用的平均数
?算术均数 (arithmetic mean/mean) ?几何均数 (geometric mean) ?中位数 (median)
3.80 ~
20
4.10 ~
17
4.40 ~
12
4.70 ~
9
5.00 ~
5
5.30~
2
5.60~5.90 1
3.95 4.25 4.55 4.85 5.15 5.45
5.75
79.00 72.25 54.60 43.65 25.75 10.90 5.75
312.05 307.06 248.43 211.70 132.61 59.41 33.06
5.75 409.75
f X2 6.00
22.69 55.82 89.78 226.48 312.05 307.06 248.43 211.70 132.61 59.41
33.06 1705.09
加权法计算均数:
? X ? f1 X1 ? f2 X 2 ? f3 X 3 ? ? fk X k ?
fX
n
n
? Σ:希腊字母(sigma) ,求和符号
? 例9.2 有8名正常人的空腹血糖值( mmol/L ):
6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9
6.2+5.4+5.7+5.3+6.1+6.0+5.8+5.9
X=
=5.8
8
2.加权法
组段 2.30~
2.60~ 2.90~ 3.20~ 3.50 ~ 3.80 ~ 4.10 ~ 4.40 ~ 4.70 ~ 5.00 ~ 5.30~
?将各效价的倒数代入公式,得该 8份血清的平均 抗体效价为 1:56.57,近似为1:57 ?注意:变量值不能有 0
2.加权法
??
G ? lg?1 ?
f ?lgX ??
?? ? f ??
?式中f为频数。
用加权法计算G
?例 30名麻疹易感儿童接种麻疹疫苗一 个月后,血凝抑制抗体滴度如下表所示 ,试求其平均抗体滴度。
?百分位数:指把数据从小到大排列后处于 第X百分位置的数值。它将全部数据分为 两据数部小是分于一,P个X,特在有定不1的包-X百括%的分PX的数位全据数部大P50数于。据PX%中。有中X%位数
?四分位数:下四分位数 P25;上四分位数 P75
P0 —— P25 —— P50 —— P75 —— P100