第2章 定量资料的统计描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

20~
18 15.00
95
79.17
22~
12 10.00 107
89.17
24~
8 6.67 115
95.83
26~
4 3.33 119
99.17
28~30 1 0.83
120
100.00
合计 120 100
P25
14
2 12
25 120 100
15
16(,ol
/
L)
P75
20
2 12
75 120 100
f
77 50
百分位数(percentileP)X
20
总体中, 数值小于它的个体恰有X %,大于它的个 体恰有1-X %
样本估计:按照升序排列的数列里, 其左侧(即 小于它)的个体数在整个样本中所占百分比为 X%。
21
频率 f L
n X %
fL f
区间 L ? PX L ? L i
? in X% fL f
组段 频数 频率 累计频数 累计频率
26
(1)
(2) (3)
(4)
(5)
6~
1 0.83
1
0.83
8~
3 2.50
4
3.33
10~
6 5.00
10
8.33
12~
8 6.67
18
15.00
14~
12 10.00
30
25.00
16~18 20 16.67
50
41.67
18~20 27 22.50
77
64.17
R = 最大值-最小值 = 29.64-7.42 = 22.22 (3)确定组段数与组距
组段数一般在10~15之间(本例拟取10个组段) 下限:组段的左端点 上限:右端点 组距=R/(预计的组段数)----以相等为宜
本例组距 22.22/10=2.22 (4)列表
直方图(频率直方图)
9
横轴:血清铁含量 纵轴:频率密度 = 频率/组距
23
同一总体中不同个体之间的离散趋势又称为变异 (variation)。
例2-11 试观察三组数据的离散状况。(均数都是30) A组:26,28,30,32,34 B组:24,27,30,33,36 C组:26,29,30,31,34
1. 极差(range,R)
24
R = 最大值-最小值 计算简便,但仅利用了两个数据的信息 一般,样本量n越大R也往往会越大, 不够稳定
频数表基础上近似计算
14
(样本量较大时)
组中值的加权平均
X fX0 fX0
f
n
f :组段的频数 X 0 :组段的中值 =(组段上限+组段下限)/2
例术2均-4数试应用加权法近似地计算例2-2资料的1算5
组段
(1) 6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~
例2-12 计算上述三组数据的极差 A组 R=34-26=8 B组 R=36-24=12 C组 R=34-26=8
2. 四分位数间距(quartile range,Q) 25
Q= P75-P25 P25与P75之间恰好包含50%的个体 四分位数间距Q是总体中数值居中的50%个体散布的范围 Q越大意味着数据间变异越大
对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和 中位数。
1. 算术均数
简称均数(mean),适合描述对称分布资料的13集中 位置(也称为平均水平)。其计算公式为
X X1 X 2 ... X n n
n:样本含量
n
Xi
Xi
X
i1 i
n
n
n
X1,X2,…,Xn:观察值
表 2-2
120 名正常成年男子血清铁含量 (μmol/L)频数表
7
组段 频数 频率 累计频数 累计频率
(1)
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 合计
(2)
1 3 6 8 12 20 27 18 12 8 4 1 120
(3)
0.83 2.50 5.00 6.67 10.00 16.67 22.50 15.00 10.00 6.67 3.33 0.83 100
(4)
1 4 10 18 30 50 77 95 107 115 119 120
(5)
0.83 3.33 8.33 15.00 25.00 41.67 64.17 79.17 89.17 95.83 99.17 100.00
手工编制的步骤:
8
(1) 找出 最小值= 7.42 最大值= 29.64 (2)计算全距(range,R),又称极差
60.0

40.0
20.0
0.0 12345678
发汞含量(mol/kg)
图2-3 某地居民238人发汞含量(μmol/kg)分布
单峰,不对称 ----- 偏峰分布 正偏峰分布:峰偏向左侧,数轴的正向有尾 负偏峰分布:峰偏向右侧,数轴的负向有尾
第二节 定量变量的统计指标 12
定量地描述集中趋势与离散趋势是统计描述的重要内容 一、 描述集中趋势的统计指标
Xi 或 X :观察值之和
i
例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)
含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,
5.42,3.38。试求其算术均数。
按式(2-1),算术均数为
X 1 (4.20 6.43 2.08 3.45 2.26 4.04 5.42 3.38) 3.9075 8
77
21.44(mo; /
L)
3.方差(variance)
又称均方差(mean square deviation)27
N
总体方差:
(Xi )2
2 i1
N
μ:总体均数
N:总体中个体的总数
分子:离均差平方和
方差越大意味着数据间变异越大
样本方差:
n
(Xi X )2
S 2 i1 n 1
G log1(
log X )
n
lg
1
lg
16
lg
32
lg
32
lg
64 7
lg
64
lg
128
lg
512
lg11.8062 64.
频数表资料,可用加权法计算几何均数
17
G
log
1
f
log f
X0
lg
1
f log X 0
n
表 2-4 52 例慢性肝炎患者的 HBsAg 滴度资料
(1)
(2) (3)
(4)
6~
1 0.83
1
(5)
0.83
19
8~
3 2.50
4
3.33
10~ቤተ መጻሕፍቲ ባይዱ
6 5.00
10
8.33
12~
8 6.67
18
15.00
14~ 12 10.00 30
25.00
16~18 20 16.67 50
41.67
18~20 27 22.50 77
64.17
20~ 18 15.00 95
1
卫生统计学
第二章 定量资料的统计描述
统计描述
2
----从资料中获取信息最基本的方法
把握资料的基本特征 为统计分析打下基础 统计表 描述性统计量 统计图
第一节 频率分布表与频率分布图3
频数分布表(frequency distribution table),又称频数表
一、 离散型定量变量的频率分布 例2-1 1998年某山区96名孕妇产前检查次数资 料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7
PX
L i n X % f
fL
4. 众数(mode)
22
总体中出现机会最高的数值。
样本估计:在样本中出现次数最多的数值。
例2-1 1998年某山区96名孕妇产前检查次数资料: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7
众数为4(次)
二、描述离散趋势的统计指标
12
12.5
96
100.0
合计
96
100
直条图(bar chart)
5
30 频 率 25 (%)
20
15
10
5
0
0
1
2
3
4
5 >5
产前检查次数
图2-1 某地96名妇女产前检查次率分布
横坐标:产前检查次数; 纵坐标:频率, 检查k次的妇女所占的比例(%) 等宽矩形长条:高度为检查次数的频率
二、连续型定量变量的频率分布
16 适用于观察值变化范围跨越多个数量级的资料 频数图一般呈正偏峰分布
G n X1X 2...X n
G log1(
log X )
n
例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料
为1:16,1:32,1:32,1:64, 1:64,1:128,1:512。试
计算其几何均数。G 7 16 32 32 64 64 128 512 64
面积 = 频率 注:组距相等时,矩形直条的高度与相应组段的频率成正比。
频率密度( %)
12
10
10 8
6 4
2 0
7 9 11 13 15 17 19 21 23 25 27 29
血清铁(μ mol/L)
图2-2 120例健康成年男子血清铁含量分布
单峰、对称 ----- 对称分布
80.0

11
率 密
28~30 合计
表 2-3 加权法计算均数
组中值( X 0 )
f
fX 0
(2)
(3) (4)=(2)(3)
7
1
7
9
3
27
11
6
66
13
8
104
15
12
180
17
20
340
19
27
513
21
18
378
23
12
276
25
8
200
27
4
108
29
1
29
120
2228
2. 几何均数(geometric mean,G)
7
512
2.70927 18.96489
合计
52
108.06977
G
lg
1
108.06977 52
119.74705
3. 中位数(median,M)
18 可用于各种分布的定量资料
总体中有一半个体的数值低于这个数,一半个体的 数
值高于这个数。
基于样本资料 将n例n为数奇据数按时升序排列M,第Xi个n*21数据记为
79.17
22~ 12 10.00 107
89.17
24~
8 6.67 115
95.83
26~
4 3.33 119
99.17
28~30 1 0.83 120
100.00
合计 120 100
频率
f L 50
n 50% 60
f L f 77
区间
L 18
?
P50 18 ?
L i 20
? i n 50% fL 2 60 50 0.74
抗体滴度 频数(f) 滴度倒数(X) lgX
f(lgX)
1:16
2
16
1.20412 2.40824
1:32
7
32
1.50515 10.53605
1:64
11
64
1.80618 19.86798
1:128
13
128
2.10721 27.39373
1:256
12
256
2.40824 28.89888
1:512
6
例2-2 抽样调查某地120名18~35岁健康男性 居民血清铁含量(μmol/L),数据如下:
8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 23.77 3.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 7.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 8.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 9.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 3.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 4.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 9.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 8.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52
X
* i
n为偶数时
M
1 2
(
X
* n 2
X
* n 1
)
2
例2-7 某药厂观察9只小鼠口服高山红景天醇提取物
(RSAE)后在乏氧条件下的生存时间(分钟)如下:
4699..10, 。试60求.8,其6中3位.3,数6。3.6M,63X.6n*,1 65X.65*,6653..86,68.6,
2
组段 频数 频率 累计频数 累计频率
4
表 2-1 1998 年某地 96 名妇女产前检查次数的频率分布
检查次数 频数 频率(%) 累计频数 累计频率(%)
(1) (2) (3)
(4)
(5)
0
4
4.2
4
4.2
1
7
7.3
11
11.5
2
11
11.5
22
22.9
3
13
13.5
35
36.5
4
26
27.1
61
63.5
5
23
24.0
84
87.5
>5
相关文档
最新文档