统计学第9章定序数据分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第9章
定序数据分析
引例9
y x
9.1 威尔科克森秩和检验
首先,我们来对表 9.1 中两个样本的 6 个观测值进行排序,最小的记为 1,最大的记为 6。通常将这种排序的结果称作秩,参见表 9.2。
表 9.2
样本 1 30 40 20
新型口味蛋糕与传统口味蛋糕打分结果赋秩
秩 3 4 2 样本 2 10 60 50 秩 1 6 5
9.3 威尔科克森符号秩和检验
T nn 1 32 32 1 264 例题: E
4 4
T
nn 12n 1 32 32 1 2 32 1 53.48 24 24
T E T
所以检验统计量的值为: Z
Test Statistics b 新款式 旧款式 .039a
Exact Sig. (2-tailed) b. Sign Test
a. Binomial distribution used.
图9.7 符号检验输出结果
9.4 运用SPSS进行定序数据分析
9.4.3 威尔科克森符号秩和检验 1.打开数据集“data9.10.sav” 。
9.2 符号检验
P(x)
拒绝域 接受域 拒绝域
0.20
0.10
0 图 9.3
1
2
3
4
5
6
7
8
9
10 11 12
x
n =12, p =0.5 时,正号个数 x 的抽样分布服从二项分布
9.2 符号检验
由于在样本数据中我们观察到只有两个正号,即 x =2<3,落入拒绝域,所以拒 绝两种款式旅游鞋舒服程度打分总体位置相同的原假设。结论是顾客更为偏好新款 旅游鞋,做出这一推断的把握程度为 95%。
TU
80 87 94 101 107 114 121 127
9.1 威尔科克森秩和检验
当样本容量大于 10 时, 统计学家已经证明: 检验统计量 T 近似服从均值为 E T , 标准差为 T 的正态分布。其中:
E T
n1 n1 n2 1 2
T
n1n2 n1 n2 1 12
将检验统计量 T 加以标准化,可得当样本容量大于 10 时,威尔科克森秩和检验的 Z 统计 量:
Z
T E T
T
9.1 威尔科克森秩和检验
实践中应用威尔科克森秩和检验时,必须具备以下几个条件: 1.问题中的目标是比较两个总体的位置。 2.样本数据为定序变量数据。 3.两个样本相互独立。 4.比较的两个总体除了位置不同外,其它方面的特征没有差异。
9.2 符号检验
符号检验就是适用于匹配样本数据的两个总体位置比较的一种推断方法。
例题:以正号个数做为检验统计量,记作 x 。问题中的原假设为:
H 0 :两种款式旅游鞋舒服程度打分总体位置相同
H 1 :两种款式旅游鞋舒服程度打分总体位置不同
正号个数与负号个数相当,即各自都为样本容量的一半,是支持原假设的证据;正号个
TU
21 24 27 30 33 36 49 42
TL
16 18 19 20 22 24 25 26
TU
29 32 36 40 43 46 50 54
TL
23 25 26 28 30 32 33 35
TU
37 41 46 50 54 58 63 67
TL
31 33 35 37 39 41 43 46
T1 =9
T2 =12
9.1 威尔科克森秩和检验
接下来,计算每个样本的秩和。 假如两个总体位置相同的原假设是真实的, 那么 T1 与 T2 就应当非常接近, 1 与 T
T2 之间的差距越大,就越是拒绝原假设的证据。
表 9.3 样本容量为 3 时,两个样本的 T 的抽样分布
T
6 7 8 9 10 11 12 13 14 15 合计
3.在 Test Type 框中,选择检验方法 Mann-Whitney U(曼-惠特尼检验) 。M 4.点击【OK】 。系统输出检验结果如图 9.5 所示。
9.4 运用SPSS进行定序数据分析
Ranks 蛋糕口味 打分 新型口味 传统口味 Total N 3 3 6 Mean Rank 3.00 4.00 Sum of Ranks 9.00 12.00
Test Statistics
b
打分 Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)] a. Not corrected for ties. b. Grouping Variable: 蛋糕口味 3.000 9.000 -.655 .513 .700
9.2 符号检验
表 9.9 正号个数 x 0 1 2 3 4 5 6
n =12, P =0.5 时,正号个数 x 的抽样分布服从二项分布
概率 0.0002 0.0029 0.0161 0.0537 0.1208 0.1934 0.2256 加号个数 x 7 8 9 10 11 12 概率 0.1934 0.1208 0.0537 0.0161 0.0029 0.0002 -
a
图9.5 Mann-Whitney U输出结果
9.4 运用SPSS进行定序数据分析
9.4.2 符号检验 1.打开数据集“data9.8.sav” 。
图 9.6 Two-Related-Samples Test 对话框
9.4 运用SPSS进行定序数据分析
2.依次选择变量 “旧款式[jks]” 和变量 “新款式[xks]” “Test 进入 Pair:” 框内。 3.在 Test Type 框中,选中 Sign 选项。点击【OK】 。系统输出检 验结果如图 9.7 所示。
9.2 符号检验
在上述的推断过程中,并没有考虑每对匹配观测值差值的绝对值, 而只是以差值符号的个数来构造检验统计量, 故称为符号检验。 符号检 验的适用条件为: 1.问题中的研究目的是比较两个总体的位置; 2.数据类型为定序变量数据; 3.两个样本数据为匹配样本数据。
9.2 符号检验
实践中的符号检验一般都采用大样本,通常将大样本界定为 n >20,但应 当注意:如果出现为零的差值则应将其从样本容量 n 中剔出。 数据统计的研究表明:服从二项分布的随机变量 x ,当 n 充分大时,将近似 服从数学期望为 np ,标准差为 np(1 p) 的正态分布。于是可得将 x 标准化后的
9.4 运用SPSS进行定序数据分析
Frequencies N 新 款式 - 旧 款式 Negative Differences a Positive Differencesb Tiesc Total 2 10 0 12
a. 新 款 式 < 旧 款 式 b. 新 款 式 > 旧 款 式 c. 旧 款 式 = 新 款 式
9.4 运用SPSS进行定序数据分析
Ranks N 锻炼后 - 锻炼前 Negative Ranks Positive Ranks Ties Total 12a 3b 0c 15 Mean Rank 9.17 3.33 Sum of Ranks 110.00 10.00
表9912p05时正号个数x的抽样分布服从二项分布正号个数x概率加号个数x概率000020002900161005370120801934022561011120193401208005370016100029000021201002012p05时正号个数x的抽样分布服从二项分布1110接受域拒绝域拒绝域由于在样本数据中我们观察到只有两个正号即23落入拒绝域所以拒绝两种款式旅游鞋舒服程度打分总体位置相同的原假设
9.1 威尔科克森秩和检验
表 9.4 威尔科克森秩和检验的临界值(a)
=0.025 的单侧检验; =0.05 的双侧检验
n1
3 4 5 6 7 8 9 10
n2
4 5 6 7 8 9 10
TL
6 6 7 7 8 8 9
TU
18 21 23 26 28 31 33
TL
11 12 12 13 14 15 16
Z 统计量:
Z x np np(1 p)
如果两总体的位置相同的原假设为真,即 p 0.5 ,则有检验统计量:
Z
n0.5(0.5)
x 0.5n
x 0.5n 0.5 n
9.3 威尔科克森符号秩和检验
大样本时,检验统计量 T 近似服从均值为 E T ,标准差为 T 的正态分布。其中:
在威尔科克森符号秩和检验的实践中,通常将大样本定义为: n 30 。统计学家已经证明:
E T
nn 1 4
T
nn 12n 1 24
将检验统计量 T 加以标准化,可得当样本容量大于 30 时,威尔科克森符号秩和检验的 Z 统 计量:
Z
T E T
T
PT
1/20 1/20 2/20 3/20 3/20 3/20 3/20 2/20 1/20 1/20 1
9.1 威尔科克森秩和检验
P (T )
0.15 0.10 0.05
6
8
10
12
14
T
图 9.2 样本容量为 3 时, 两个样本的 T 的 抽样分布
9.1 威尔科克森秩和检验
若给定显著性水平为 0.05,就可以以此来衡量检验统计量 T 的值的大小。 在威尔科克森秩和检验过程中,确定检验统计量 T 的抽样分布是问题的关键, 但也是一个非常繁琐的过程。不同的样本容量,其抽样分布是不同的。为了方 便实际应用,统计学家已经完成了不同样本容量下检验统计量 T 的抽样分布表, 以供查阅。
数与负号个数相差越远, 就越是拒绝原假设的证据。 如果将正号在样本容量中所占的比率记 作 p ,则问题中的原假设也可表述为: H 0 : P 0.5
H1 : P 0.5
显然,原假设为真时,问题中正号个数 x 的抽样分布为 n 12 ,二项比率 p 0.5 的二项分 布,参见表 9.9 和图 9.3。
T
367.5 264 1.94 53.48
这是一个双侧检验,若给定显著性水平 0.05 ,则由于 Z 2 Z 0.025 1.96 <
Z 1.94 < Z 2 Z 0.025 1.96 ,落入接受域,所以没有理由拒绝原假设。结论是传统上
班制与弹性上班制上班所花时间没有显著差异,做出这一推断的把握程度为 95%。
图 9.4 Two-Independent-Samples Test 对话框
9.4 运用SPSS进行定序数据分析
2.选择检验变量“打分[df]”进入“Test Variable List:”框内;选择分组变量“蛋 糕口味[dgkw]”进入“Grouping Variable” 框内,并点击 Define Groups 按钮,输 入分组值 1、2。
TU
46 51 56 61 66 71 76 80
TL
39 42 45 47 49 52 54 57
TU
57 62 67 73 79 84 90 95
TL
49 52 55 57 60 63 66 69
TU
68 74 80 87 93 99 105 111
TL
60 63 66 69 73 76 79 83
TL
40 42 44 47 49 51 54
TU
64 70 76 81 87 93 98
TL
50 52 55 58 60 63 66
TU
76 83 89 95 102 108 114
TL
61 64 66 70 73 76 79
TU
89 96 104 110 117 124 131
9.1 威尔科克森秩和检验
表 9.5 威尔科克森秩和检验的临界值(b)
=0.05 的单侧检验; =0.10 的双侧检验
n1
3 4 5 6 7 8 9 10
n2
3 4 5 6 7 8 9 10
TL
6 7 7 8 9 9 70 22
TU
15 17 20 22 24 27 29 31
TL
11 12 13 14 15 16 17 18
图 9.8 Two-Related-Samples Test 对话框
9.4 运用SPSS进行定序数据分析
2.依次选择变量 “锻炼前[dlq]” 和变量 “锻炼后[dlh]” “Test Pair:” 进入 框内。
3.在 Test Type 框中,选中“Wilcoxon”选项。点击【OK】 。系统输出检验 结果如图 9.9 所示。
TU
25 28 32 35 38 41 44
TL
17 18 19 20 21 22 24
TU
33 37 41 45 49 53 56
TL
23 25 26 28 29 31 32
TU
43 47 52 56 61 65 70
TL
31 33 35 37 39 41 43
TU
53 58 63 68 73 78 83
9.3 威尔科克森符号秩和检验
威尔科克森符号秩和检验的适用条件为: 1.问题中的研究目的是比较两个总体的位置; 2.数据类型为数值型变量数据; 3.差值分布为非正态分布; 4.两个样本数据为匹配样本数据。
9.4 运用SPSS进行定序数据分析
9.4.1 威尔科克森秩和检验 1.打开数据集“data9.1.sav” 。
定序数据分析
引例9
y x
9.1 威尔科克森秩和检验
首先,我们来对表 9.1 中两个样本的 6 个观测值进行排序,最小的记为 1,最大的记为 6。通常将这种排序的结果称作秩,参见表 9.2。
表 9.2
样本 1 30 40 20
新型口味蛋糕与传统口味蛋糕打分结果赋秩
秩 3 4 2 样本 2 10 60 50 秩 1 6 5
9.3 威尔科克森符号秩和检验
T nn 1 32 32 1 264 例题: E
4 4
T
nn 12n 1 32 32 1 2 32 1 53.48 24 24
T E T
所以检验统计量的值为: Z
Test Statistics b 新款式 旧款式 .039a
Exact Sig. (2-tailed) b. Sign Test
a. Binomial distribution used.
图9.7 符号检验输出结果
9.4 运用SPSS进行定序数据分析
9.4.3 威尔科克森符号秩和检验 1.打开数据集“data9.10.sav” 。
9.2 符号检验
P(x)
拒绝域 接受域 拒绝域
0.20
0.10
0 图 9.3
1
2
3
4
5
6
7
8
9
10 11 12
x
n =12, p =0.5 时,正号个数 x 的抽样分布服从二项分布
9.2 符号检验
由于在样本数据中我们观察到只有两个正号,即 x =2<3,落入拒绝域,所以拒 绝两种款式旅游鞋舒服程度打分总体位置相同的原假设。结论是顾客更为偏好新款 旅游鞋,做出这一推断的把握程度为 95%。
TU
80 87 94 101 107 114 121 127
9.1 威尔科克森秩和检验
当样本容量大于 10 时, 统计学家已经证明: 检验统计量 T 近似服从均值为 E T , 标准差为 T 的正态分布。其中:
E T
n1 n1 n2 1 2
T
n1n2 n1 n2 1 12
将检验统计量 T 加以标准化,可得当样本容量大于 10 时,威尔科克森秩和检验的 Z 统计 量:
Z
T E T
T
9.1 威尔科克森秩和检验
实践中应用威尔科克森秩和检验时,必须具备以下几个条件: 1.问题中的目标是比较两个总体的位置。 2.样本数据为定序变量数据。 3.两个样本相互独立。 4.比较的两个总体除了位置不同外,其它方面的特征没有差异。
9.2 符号检验
符号检验就是适用于匹配样本数据的两个总体位置比较的一种推断方法。
例题:以正号个数做为检验统计量,记作 x 。问题中的原假设为:
H 0 :两种款式旅游鞋舒服程度打分总体位置相同
H 1 :两种款式旅游鞋舒服程度打分总体位置不同
正号个数与负号个数相当,即各自都为样本容量的一半,是支持原假设的证据;正号个
TU
21 24 27 30 33 36 49 42
TL
16 18 19 20 22 24 25 26
TU
29 32 36 40 43 46 50 54
TL
23 25 26 28 30 32 33 35
TU
37 41 46 50 54 58 63 67
TL
31 33 35 37 39 41 43 46
T1 =9
T2 =12
9.1 威尔科克森秩和检验
接下来,计算每个样本的秩和。 假如两个总体位置相同的原假设是真实的, 那么 T1 与 T2 就应当非常接近, 1 与 T
T2 之间的差距越大,就越是拒绝原假设的证据。
表 9.3 样本容量为 3 时,两个样本的 T 的抽样分布
T
6 7 8 9 10 11 12 13 14 15 合计
3.在 Test Type 框中,选择检验方法 Mann-Whitney U(曼-惠特尼检验) 。M 4.点击【OK】 。系统输出检验结果如图 9.5 所示。
9.4 运用SPSS进行定序数据分析
Ranks 蛋糕口味 打分 新型口味 传统口味 Total N 3 3 6 Mean Rank 3.00 4.00 Sum of Ranks 9.00 12.00
Test Statistics
b
打分 Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)] a. Not corrected for ties. b. Grouping Variable: 蛋糕口味 3.000 9.000 -.655 .513 .700
9.2 符号检验
表 9.9 正号个数 x 0 1 2 3 4 5 6
n =12, P =0.5 时,正号个数 x 的抽样分布服从二项分布
概率 0.0002 0.0029 0.0161 0.0537 0.1208 0.1934 0.2256 加号个数 x 7 8 9 10 11 12 概率 0.1934 0.1208 0.0537 0.0161 0.0029 0.0002 -
a
图9.5 Mann-Whitney U输出结果
9.4 运用SPSS进行定序数据分析
9.4.2 符号检验 1.打开数据集“data9.8.sav” 。
图 9.6 Two-Related-Samples Test 对话框
9.4 运用SPSS进行定序数据分析
2.依次选择变量 “旧款式[jks]” 和变量 “新款式[xks]” “Test 进入 Pair:” 框内。 3.在 Test Type 框中,选中 Sign 选项。点击【OK】 。系统输出检 验结果如图 9.7 所示。
9.2 符号检验
在上述的推断过程中,并没有考虑每对匹配观测值差值的绝对值, 而只是以差值符号的个数来构造检验统计量, 故称为符号检验。 符号检 验的适用条件为: 1.问题中的研究目的是比较两个总体的位置; 2.数据类型为定序变量数据; 3.两个样本数据为匹配样本数据。
9.2 符号检验
实践中的符号检验一般都采用大样本,通常将大样本界定为 n >20,但应 当注意:如果出现为零的差值则应将其从样本容量 n 中剔出。 数据统计的研究表明:服从二项分布的随机变量 x ,当 n 充分大时,将近似 服从数学期望为 np ,标准差为 np(1 p) 的正态分布。于是可得将 x 标准化后的
9.4 运用SPSS进行定序数据分析
Frequencies N 新 款式 - 旧 款式 Negative Differences a Positive Differencesb Tiesc Total 2 10 0 12
a. 新 款 式 < 旧 款 式 b. 新 款 式 > 旧 款 式 c. 旧 款 式 = 新 款 式
9.4 运用SPSS进行定序数据分析
Ranks N 锻炼后 - 锻炼前 Negative Ranks Positive Ranks Ties Total 12a 3b 0c 15 Mean Rank 9.17 3.33 Sum of Ranks 110.00 10.00
表9912p05时正号个数x的抽样分布服从二项分布正号个数x概率加号个数x概率000020002900161005370120801934022561011120193401208005370016100029000021201002012p05时正号个数x的抽样分布服从二项分布1110接受域拒绝域拒绝域由于在样本数据中我们观察到只有两个正号即23落入拒绝域所以拒绝两种款式旅游鞋舒服程度打分总体位置相同的原假设
9.1 威尔科克森秩和检验
表 9.4 威尔科克森秩和检验的临界值(a)
=0.025 的单侧检验; =0.05 的双侧检验
n1
3 4 5 6 7 8 9 10
n2
4 5 6 7 8 9 10
TL
6 6 7 7 8 8 9
TU
18 21 23 26 28 31 33
TL
11 12 12 13 14 15 16
Z 统计量:
Z x np np(1 p)
如果两总体的位置相同的原假设为真,即 p 0.5 ,则有检验统计量:
Z
n0.5(0.5)
x 0.5n
x 0.5n 0.5 n
9.3 威尔科克森符号秩和检验
大样本时,检验统计量 T 近似服从均值为 E T ,标准差为 T 的正态分布。其中:
在威尔科克森符号秩和检验的实践中,通常将大样本定义为: n 30 。统计学家已经证明:
E T
nn 1 4
T
nn 12n 1 24
将检验统计量 T 加以标准化,可得当样本容量大于 30 时,威尔科克森符号秩和检验的 Z 统 计量:
Z
T E T
T
PT
1/20 1/20 2/20 3/20 3/20 3/20 3/20 2/20 1/20 1/20 1
9.1 威尔科克森秩和检验
P (T )
0.15 0.10 0.05
6
8
10
12
14
T
图 9.2 样本容量为 3 时, 两个样本的 T 的 抽样分布
9.1 威尔科克森秩和检验
若给定显著性水平为 0.05,就可以以此来衡量检验统计量 T 的值的大小。 在威尔科克森秩和检验过程中,确定检验统计量 T 的抽样分布是问题的关键, 但也是一个非常繁琐的过程。不同的样本容量,其抽样分布是不同的。为了方 便实际应用,统计学家已经完成了不同样本容量下检验统计量 T 的抽样分布表, 以供查阅。
数与负号个数相差越远, 就越是拒绝原假设的证据。 如果将正号在样本容量中所占的比率记 作 p ,则问题中的原假设也可表述为: H 0 : P 0.5
H1 : P 0.5
显然,原假设为真时,问题中正号个数 x 的抽样分布为 n 12 ,二项比率 p 0.5 的二项分 布,参见表 9.9 和图 9.3。
T
367.5 264 1.94 53.48
这是一个双侧检验,若给定显著性水平 0.05 ,则由于 Z 2 Z 0.025 1.96 <
Z 1.94 < Z 2 Z 0.025 1.96 ,落入接受域,所以没有理由拒绝原假设。结论是传统上
班制与弹性上班制上班所花时间没有显著差异,做出这一推断的把握程度为 95%。
图 9.4 Two-Independent-Samples Test 对话框
9.4 运用SPSS进行定序数据分析
2.选择检验变量“打分[df]”进入“Test Variable List:”框内;选择分组变量“蛋 糕口味[dgkw]”进入“Grouping Variable” 框内,并点击 Define Groups 按钮,输 入分组值 1、2。
TU
46 51 56 61 66 71 76 80
TL
39 42 45 47 49 52 54 57
TU
57 62 67 73 79 84 90 95
TL
49 52 55 57 60 63 66 69
TU
68 74 80 87 93 99 105 111
TL
60 63 66 69 73 76 79 83
TL
40 42 44 47 49 51 54
TU
64 70 76 81 87 93 98
TL
50 52 55 58 60 63 66
TU
76 83 89 95 102 108 114
TL
61 64 66 70 73 76 79
TU
89 96 104 110 117 124 131
9.1 威尔科克森秩和检验
表 9.5 威尔科克森秩和检验的临界值(b)
=0.05 的单侧检验; =0.10 的双侧检验
n1
3 4 5 6 7 8 9 10
n2
3 4 5 6 7 8 9 10
TL
6 7 7 8 9 9 70 22
TU
15 17 20 22 24 27 29 31
TL
11 12 13 14 15 16 17 18
图 9.8 Two-Related-Samples Test 对话框
9.4 运用SPSS进行定序数据分析
2.依次选择变量 “锻炼前[dlq]” 和变量 “锻炼后[dlh]” “Test Pair:” 进入 框内。
3.在 Test Type 框中,选中“Wilcoxon”选项。点击【OK】 。系统输出检验 结果如图 9.9 所示。
TU
25 28 32 35 38 41 44
TL
17 18 19 20 21 22 24
TU
33 37 41 45 49 53 56
TL
23 25 26 28 29 31 32
TU
43 47 52 56 61 65 70
TL
31 33 35 37 39 41 43
TU
53 58 63 68 73 78 83
9.3 威尔科克森符号秩和检验
威尔科克森符号秩和检验的适用条件为: 1.问题中的研究目的是比较两个总体的位置; 2.数据类型为数值型变量数据; 3.差值分布为非正态分布; 4.两个样本数据为匹配样本数据。
9.4 运用SPSS进行定序数据分析
9.4.1 威尔科克森秩和检验 1.打开数据集“data9.1.sav” 。