常用非参数统计方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4
1 4 10 1112 1314 15 80
2 3 5 6 7 8 9 16 56
123 45 6 7 8
9 10 11 12
13 14
15
16
• 非正态分布:两个班同学(n1,n2)从高到低、 交错地排在队伍中,编号(即身高的秩次),若两 个班同学身高相近(排列均匀),则每个班所报数 字之和(秩和T)与其理论秩和相差不大。反之, 则有理由相信其中一个班同学的身高比另一个 班高。
0.82 0.87 0.87 0.97 1.01 1.21 1.64 2.08 2.13
遇有原始数据相同时,可分两种情况处 理:①相同数据在同一组,其秩次按位置 的顺序。②相同数据分在两组,均取其平 均秩次(10+11)/2=10.5。
2019/11/21
12
铅作业组 (1) 0.82 0.87 0.97 1.21 1.64 2.08 2.13
2019/11/21
30
配对符号秩和检验
• 主要用于配对数值变量资料的检验。
.174
10
.200*
.919
10
.348
2019/11/21
10
一、建立检验假设,确定检验水准
H0:铅作业与非铅作业工人血铅值分布的位置
相同,
H1:铅作业与非铅作业工人血铅值分布的
位置不同。 α=0.05
2019/11/21
11
二、计算检验统计量T 值
混合编秩 0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72
(5)
单纯性 合并肺气肿
(6)=(1)(5) (7)=(2)(5)
控制
65
显效
18
有效
30
无效
13
合计
126
2019/11/21
42
107
1~107
54
3510
6
24
108~131
119.5
2151
23
53
132~184
158
4740
11
24
185~208
196.5
2554.5
82
208


12955.5
13
• 两组秩次分别相加 T1=93.5 T2=59.5
取较小样本的秩和记为统计量 T,
本例 n1=7,n2=10,取T=T1=93.5
两组合计的秩和为多少?
2019/11/21
14
三、确定P值和作出推断结论
查附表12, n1=7, n2-n1=10-7=3, 原则:内大外小
双侧0.05 42-84
等级资料的形式
• 例10.2 用某药治疗不同病情的老年慢性支气管炎病 人,疗效见表10.2第(1)、(2)两栏,问该药对两种病 情的老年慢性支气管炎病人的疗效是否相同?
疗效
单纯性 (1)
表 10.2 某药对两种病情的老年慢性支气管炎病人的疗效比较
单纯性合
合计
秩次范围 平均秩次
秩和
并肺气肿 (2)
(3)=(1)+(2) (4)
相同值:同组顺序编号,不同组取平均秩次。
计算各组秩和Ri (i=1,2,3,4)
计算统计量H值
H 12
m
R2 i.
3(N
1)
N (N 1) i1 ni

3424(3122(14241)12)186(24811153.75422

132332..5522 195
• 比较 n1的秩和T与其理论秩和n1(N+1)/2, 这就是秩和检验的思想。
2019/11/21
6
秩和检验(rank sum test)
• 秩(rank):观察值从小到大排序,该序号在统
计学上称为秩/秩次; •秩和:秩次求和得到; •秩和检验:用秩和进行假设检验的方法。
秩(rank) → 秩和(rank sum) →秩和检验(rank sum test) 用数据排序的秩来代替原数据进行假设检验: 位置检验
2019/11/21
2
参数统计 VS 非参数统计
参数统计(parametric statistics):已知总体分
布类型,通过样本统计量对总体参数进行估
计和检验。 : (x Z /2sx , x Z /2sx )
区间估计: : (x t / 2, sx , x t / 2, sx )
适宜作非参数检验的资料
计量资料,总体偏离正态性或总体分布未知 等级资料:痊愈、显效、有效、无效;-、 ±、
+、++、+++; 心功能分级;烧伤程度…
边界不确定的资料:如出现>50mg或 0.5mg以下
2019/11/21
8
两样本比较秩和检验
例 测得铅作业与非铅作业工人的血铅值 (μmol/L),
2019/11/21
21
多个样本比较的秩和检验
多个组资料: 1 有序分类资料 2 定量资料,但其不满足正态性或方差
齐性 H检验(Kruskal-Wallis 法)
2019/11/21
22
例10.3 在研究白血病时,测得鼠脾的DNA含量如表 10.3第(1)、(3)、(5)、(7)栏。问不同病情的鼠脾 DNA含量有无差别?
常用非参数统计方法
孙金芳 sjf_1128@
流行病与卫生统计学系 东南大学公共卫生学院
概念复习
• 统计描述 • 数值资料 (P4 变量的分类) • 集中趋势 — 平均数 (P9)
–算术均数:单峰对称分布(正态、近似正态分布) –中位数: 偏态分布、分布不规则、开口资料 (位置指标,对分布不作要求)
514178.54622
)

33(32(441)
1)

19.8991
2019/11/21
25
三、确定P值,作出统计推断
K=4, ni>5, H>20.05(3),即P<,因此拒绝H0,接受H1
认为四种鼠脾DNA含量总体分布位置不同或不全同 。
K=3,ni<=5, 附表13; K>3,最小样本例数>=5,H近似服从自由度为k-
正常脾
(1)
12.3 13.2 13.7 15.2 15.4 15.8 16.9 17.3
Ri ni
秩次 (2)
表 10.3 不同病情的鼠脾 DNA 含量(mg)
患自发性白血 秩次 患移植性白血病时 秩次 患移植性白血病
病时的脾
的脾(甲组)
时的脾(乙组)
(3)
(4)
(5)
(6)
(7)
18
10.8
8
22
10.5
1.01
13
n1=7
T1=93.5
n2=10
T2=59.5
2019/11/21
9
SPSS 软件检验正态性与方差齐性结果
正态性检验
group
Kolmogorov-Smirnova
Shapiro-Wilk
统计量
df
Sig. 统计量
df
Sig.
x
铅作业组
.201
7
.200*
.863
7
.162
非铅作业组
拒绝 42 接受 84 拒绝
按α=0.05水准,拒绝H0,接受H1,故认为
铅作业工人比非铅作业工人血铅值高。
2019/11/21
15
正态近似检验,公式为:
u

T
n1n1 n2 1/ 2 0.5 n1n2 n1 n2 1/12
i
C 1
(t 3 j

t
j
)
/(
N
3
1
2083 208
0.8443
uc
0.4974 0.8443
0.541
2019/11/21
20
• 三、确定P值和作出结论推断
• uc<1.96, P>0.05,按α=0.05水准尚不
能拒绝H0,故认为本疗法对上述两种病 情的患者并未显示出不同疗效。
• 卡方检验未考虑等级的强弱信息,秩和 检验更适合于单向有序分类资料。
t检验: u1= u2 ?要求独立随机样本、取自 正态总体、方差齐性
非参数统计(nonparametric statistics):不依
赖总体分布类型,不对参数进行估计或检验,
通过样本观察值推断总体分布位置是否相同。
2019/11/21
3
非参数检验又称任意分布检验(distribution-free test)。
黄酮片
复方组
合计
秩次范围
(3)
(4)
(5)
(6)
5
13
66
1~ 66
16
36
236
67~302
18
11
106
303~408
19
17
88
409~496
18116
18680.5
58
77
平均秩次 (7) 33.5 184.5 355.5 452.5
2019/11/21
27
假设
H0:三种方剂疗效分级的总体分布相同。
1的卡方分布, 2 界值表。
2019/11/21
26
等级资料(校正H)
• 例10.4某医生用三种方剂治疗某妇科病,疗 效如表10.4,问三种方剂的疗效有无差别?
疗效 (1) 无效 好转 显效 控制
Ri ni
糖衣片 (2)
48 184 77 52 86459.5 361
表 10.4 三种方剂的疗效比较

N
)
j 1
当相同秩次较多时,
uc
u C
式中t j (j=1,2,…)为第 j 个相同秩的个数
假定相同秩(即平均秩)中有 2 个 1.5,5 个 8,3 个 14,则
t1 2 , t2 5 , t3 3 ,
2019/11/21
(t
3 j

t
j)

(23
2) (53 5) (33 3) 15106
问两组工人的血铅值有无差别?
表 10.1 两组工人的血铅值 (μmol/L)
铅作业组
秩次
非铅作业组
秩次
(1)
(2)
(3)
(4)
0.82
9
0.24
1
0.87
10.5
0.24
2
0.97
12
0.29
3
1.21
14
0.33
4
1.64
15
0.44
5
2.08
16
0.58
6
2.13
17
0.63
7
0.72
8
0.87
n1=7
表 10.1 两组工人的血铅值 (μmol/L)
秩次
非铅作业组
(2)
(3)
9
0.24
10.5
0.24
12
0.29
14
0.33
15
0.44
16
0.58
17
0.63
0.72
0.87
1.01
T1=93.5
n2=10
秩次 (4)
1 2 3 4 5 6 7 8 10.5 13 T2=59.5
2019/11/21
2 3.5 5 6 7 9 10 12
54.5 8
2019/11/21
23
一、建立假设检验,确定检验水准
H0:四种鼠脾DNA含量总体分布位置相同。 H1:四种鼠脾DNA含量总体分布位置不同
或不全同。
0.05
2019/11/21
24
二、计算检验统计量
混合编秩: 由小到大排列,统一编秩
表12所列范围,
2019/11/21
19
8780.5 1/ 2 82 208 1 0.5
u
82126 208 1/12
0.4974
C 1
t
3 j

t
j
N3 N
1073 107 243 24 533 53 243 24
常错误采用 卡方检验
2268 717 3634 2161.5 8780.5
17
一、假设
• H0:两种病情病人的疗效分布相同。 • H1:两种病情病人的疗效分布不同。 • α=0.05
2019/11/21
18
二、计算检验统计量uc值
• 排秩 • 求秩和 • 统计量T 。n1=82,T=8780.5 本例n1=82,n2=126,n2-n1=44,已超过附
11.6
13
26
12.3
18
28
12.7
21
29
13.5
23
30
13.5
24
31
14.8
27
32
216
134
8
7
9.3
1
9.5
10.3
3.5
10.3
11.1
11
10.5
11.7
14
10.5
11.7
15
10.5
12.0
16
10.9
12.3
18
11.0
12.4
20
11.5
13.6
25
123.5
9
秩次
(8)

t
j
N3 N
1
663 66

2363 236 1063 106 4963 496

883 88
0.8746
Hc

H C
13.0623 14.9354 0.8746
2019/11/21
29
多个样本间的多重比较
当多个样本比较的秩和检验拒绝H0,认为各总 体分布位置不同或不全相同时,常需进一步 作两两比较的秩和检验,以推断哪两个总体 分布位置不同,或哪两个总体分布位置相同。 为此需进行组间的多重比较(multiple comparison)。
H1:三种方剂疗效分级的总体分布不同或 不全同。

α=0.05
求检验统计量Hc
2019/11/21
28
H

12
496496

1


86459.52 361
181162 58
18680.52 77

3 496 1 13.0623
C 1
t
3 j
优点:资料分布特征要求较低,适用范围广,收集资料方便; 对不满足参数方法的资料,效率高。
缺点:对适宜用参数方法的资料,若用非参数法处理,没 有充分利用资料提供的信息,导致检验效能下降。犯第Ⅱ 类错误概率比参数检验大。
非参数方法很多,主要介绍秩和检验(rank sum test) 。
2019/11/21
相关文档
最新文档