第二章 定量资料统计描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

定量变量的特征数
2)加权频数表法:计算公式为
x fXO fXO
f
n
加权均数=2228/120=18.57(μmol/L) 直接法均数=18.61(μmol/L)。
定量变量的特征数
几何均数(geometric mean,G)
适用于观察值变化范围跨越多个数量级
的资料。其频数图一般呈正偏峰分布。人们
可用手工和计算机软件(如SAS、SPSS等) 方便制作频数表。
频数与频数分布
离散型定量变量的频数分布
例2-1 1998年某山区96名孕妇产前检 查次数资料如下:0,3,2,0,1,5, 6,3,2,4,1,0,6,5,1,3, 3,…,4,7等共96个数值
频数与频数分布
表2-1:96名妇女产前检查次数分布的频数分布表
表2-4 52例慢性肝炎患者的HBsAg滴度资料
频数(f)
滴度倒数(X)
lgX
2
16
1.20412
7
32
1.50515
11
64
1.80618
13
128
2.10721
12
256
2.40824
7
512
2.70927
52
f(lgX) 2.40824 10.53605 19.86798 27.39373 28.89888 18.96489 108.06977
14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74
20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66
21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18
23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83
21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12
21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22
奇数: M X ( n1) 2
偶数:
M

1 2

X
(
n 2
)


X ( n 1) 2

定量变量的特征数
百分位数法计算中位数:频数表资料
百分位数的计算公式为
PX

LX

iX fX
(nX % fL )
式中LX、iX和fX分别为第百分位数所在组段的下限、组 距和频数,∑fL为小于各组段的累计频数, LX为总例 数。即为中位数的计算公式
/ L)
该组血清铁资料的中位数为18.74(μmol/L) 如果按(2-7)式计算,
结果为18.99(μmol/L)。
定量变量的特征数
众数(mode):原指总体中出现机会最高 的数值。样本众数则是在样本中出现次数 最多的数值。 如 例2-1产前检查次数的众数为4次
调和均数(harmonic mean, H): 先求原 始数据倒数的算术均数。该算术均数的倒 数便称为原数据的调和均数。
加权法计算几何均数。频数表资料

G log 1
f
log
X


lg 1
f log X
f n
例2-6 52例慢性肝炎患者的HBsAg滴度 数据如表2-4。试计算滴度的几何均数。
定量变量的特征数
抗体滴度 1:16 1:32 1:64 1:128 1:256 1:512 合计
H 1 59.5238 0.0168
定量变量的特征数
离散趋势统计指标 例2-11 试观察三组数据的离散状况。A组:26, 28,30,32,34;B组:24,27,30,33, 36;C组:26,29,30,31,34。将三组数据 分别点在直线上,如图2-4所示。
定量变量的特征数
1.极差 极差:一组变量值最大值与最小值之差。
S

X
2

( X
n
)2
n 1
s 2 ( X X )2
n 1
S (X X )2 n 1
s2 fXo2 ( fXo )2 / n
n 1
定量变量的特征数
例2-14 分别计算例2-11中三组数据的标准差。 按照公式(2-11)与标准差的定义
A组
s 4540 1502 / 5 3.16 5 1
定量变量的特征数
其计算公式为
1 1 n 1
H
n i 1 X i
例2-10 接受某种处理的5只小鼠生存时间(分钟) 分别为49.1、60.8、63.3、 63.6和63.6,试计算
其调和均数。
1 1 ( 1 1 1 1 1 ) 0.0168 H 5 49.1 60.8 63.3 63.6 63.6
频数与频数分布
频数分布图:在表2-2的基础上,可以绘制出 图2-2,称为直方图(频率直方图)。 横轴:血清铁含量 纵轴:频率密度,即频率/组距(直条面积 等于相应组段的频率)。 在组距相等时,直方图中矩形直条的高 度与相应组段的频率成正比。
频数与频数分布
频 30 率 25

度 20
15
10
5
0
6 8 10 12 14 16 18 20 22 24 26 28
第 2 四 分 位 数 ( M=P50 ) 、 第 3 四 分 位 数 (QU=P75)。四分位数间距(quartile range) 是由第3四分位数和第1四分位数相减而得,记 为QR。它一般和中位数一起描述偏态分布资料 的分布特征。
定量变量的特征数
3.方差 方差(variance)也称均方差(mean square
12.5
96
100.0
96
100
频数与频数分布
图2-1
30 频 率 25 (%)
20
15
10
5
0
0
1
2
3
4
5
>5
产前检查次数
图2-1 某地96名妇女产前检查次率分布
频数与频数分布
连续型定量变量的频数分布 例2-2 抽样调查某地120名18岁~35岁
健康男性居民血清铁含量(μmol/L), 将数据适当分组,计数每组的频数,根
23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52
频数与频数分布
手工编制表2-2步骤。 (1)计算全距(range,R),也称为极差
R = 最大值-最小值 = 29.64-7.42=22.22 (μmol/L) (2)确定组段数与组距:组段数一般可在10~15之 间选择。组距=上限-下限=R/(预计的组段数)。 本例如果预计取12个组段,则组距长度约为 22.22/12=1.85,取整数2。两端的组段应分别包含 最小值或最大值; (3)列表 做出如表2-2的表格,将选好的组段顺序 地列在 (1)列。按照“下限≤x<上限” 的原则确 定每一例数据x应归属的组段。
定量变量的特征数
组段 (1)
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 合计
表2-3 加权法计算均数
组中值(XO)
f
(2)
(3)
7
1
9
3
11
6
13
8
15
12
17
20
19
27
21
18
23
12
25
8
27
4
29Hale Waihona Puke Baidu
1
120
fXO (4)=(2)(3)
7 27 66 104 180 340 513 378 276 200 108 29 2228
G 7 16 32 32 64 64 128 512 64
G log 1 (
log X )
n

lg
1

lg
16
lg 32

lg 32

lg 64 7

lg 64

lg 128

lg 512


lg 1 1.8062

64.
定量变量的特征数
M

P50

L50

i50 f50
(n 2

fL)
定量变量的特征数
例2-8 试利用表2-2的频数表求例2-2中血清铁含量 的中位数。
从表2-2可判断出位于“18-”这个组段。将相应数据 代入式(2-8)
P50
18

2 27
50 120 100
50
18.74(mol
定量变量的特征数
52例慢性肝炎患者的HBsAg滴度的几何均数 为1∶119.74705。
G

lg
1
108
.06977 52


119 .74705
定量变量的特征数
中位数(median,M)
可用于各种分布的定量资料。中位数 的原意是指在总体中有一半个体的数值低 于这个数,一半个体的数值高于这个数。
21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22
9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72
22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90
deviation),反映一组数据的平均离散水平。 离均差:每一个变量值与均数的差值, 离均差平方和(sum of squares):离均差平方后相
加得到的值 方差:离均差平方和除以得到的值总体方差用 表示
定量变量的特征数
方差计算公式为
2 ( X )2
N
4、标准差:
(X )2 N
极差不能反映所有数据的变异大小,且受 样本含量的影响较大,N大,极差值相差也大, 故其稳定性较差。 例2-11中三组数据的极差
A组 R=34-26=8 B组 R=36-24=12 C组 R=34-26=8
定量变量的特征数
2.四分位数间距 四分位数(quartile)是把全部变量值分为四
部分的百分位数,即第1四分位数(QL=P25)、
血清铁(μ mol/L)
频数与频数分布
对称分布:频数最多的组段在中央,图2-2 正偏峰分布:峰向左侧偏移的分布,右侧的
组段数多于左侧,为右偏峰分布。图2-3 负偏峰分布:峰向右侧偏移的分布,左侧的
组段数多于右侧,称为左偏峰分布。 图21
定量变量的特征数
集中趋势统计指标 对于连续型定量变量,描述集中趋势常
用的统计量为算术均数、几何均数和中位 数。 算术均数:适合描述对称分布资料的集中位 置(也称为平均水平)。其计算公式为
定量变量的特征数
1)直接计算法:计算公式为
n
x

X1

X2
...
Xn

Xi
i 1

Xi
i

X
n
n
n
n
式中X1,X2和Xn为所有观察值,n为样本含量, ∑(希腊字母,读作sigma)为求和的符
据这些数据编制成的频数分布表(表2-2) 则能显示出这组数据分布的特点。
频数与频数分布
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65
8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48
常用几何均数描述这类资料的集中位置。 在
医学研究中常适用于免疫学的指标。其计算
公式为
X G n X1 X 2...X n
lg 1
lg n
X

定量变量的特征数
例2-5 7名慢性迁延性肝炎患者的HBsAg滴度 资料为1:16,1:32,1:32,1:64, 1:64, 1:128,1:512。试计算其几何均数。
检查次数 (1) 0 1 2 3 4 5 >5 合计
表2-1 1998年某地96名妇女产前检查次数分布
频数
频率(%) 累计人数
累计频率(%)
(2)
(3)
(4)
(5)
4
4.2
4
4.2
7
7.3
11
11.5
11
11.5
22
22.9
13
13.5
35
36.5
26
27.1
61
63.5
23
24.0
84
87.5
12
第二章 定量资料的统计描述
频数与频数分布
频数与频数分布 频数:某个测量值的个(例)数。 频数分布表(frequency distribution table):又
称频数表。是将原始数据值适当分组后得到各组 的频数,如表2-1频数分布表。
适用样本量较大的资料进行统计描述的常用方 法。通过频数表可以显示数据分布的范围与形态。
号。
定量变量的特征数
例2-3 测得8只正常大鼠血清总酸性磷酸酶 (TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。试 求其算术均数。
算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.42+ 3.38)/8=3.9075 (U/L)
相关文档
最新文档