非参数检验的概念与过程
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Test Variables: a b c Test type:选一种或多种 比较有用的结果:看sig值,sig<.05, 拒绝零假设,
认为顾客对三种款式衬衫的喜爱程度是不相同的。
补充:非参数检验
以下的讲义是吴喜之教授有关
非参数检验的讲义,
我觉得比书上讲得清楚。
非参数检验
为什么用非参数方法?
非参数检验
说明:非参数检验这章,请看下面吴 喜之教授的讲义,更为具体的可参看 《统计分析与SPSS的应用》薛薇 编著 人大出版社,2002.7第二次印刷
非参数检验的概念
是指在总体不服从正态分布且分布情况 不明时,用来检验数据资料是否来自同 一个总体假设的一类检验方法。由于这 些方法一般不涉及总体参数故得名。 这类方法的假定前提比参数性假设检验 方法少的多,也容易满足,适用于计量 信息较弱的资料且计算方法也简单易行, 所以在实际中有广泛的应用。
Cochran Q:要求样本数据为二值的(1-满意 0-不满意) Friedman:利用秩实现 Kendall协同系数检验:H0:协同系数为0(评分标准不相关的
或者是随机的) 实例 :9个顾客对三种款式衬衫的喜爱程度(1-最喜爱 2-其
次 3-不喜爱)。数据data12-09(3个变量: 款式A,款式B, 款式C, 27个cases)。试问顾客对三种款式衬衫的喜爱程度 是否相同。 Analyze-> Nonparametric Tests-> k related Samples
Test Pairs: dlq-dlh Test type:选一种或多种 比较有用的结果:看sig值,sig<.05, 拒绝零假设,
认为锻炼前后的晨脉有显著性的差异。
12.8 多个相关样本检验
K related Samples Test
对多个被测试者,多个打分,看打分是否有显著性差异。 方法有三种:
补充:二项分布检验实例
实例:为验证某批产品的一等品率是否达到90%,现 从该批产品中随机抽取23个样品进行检测,结果有19 个一等品(1-一等品,0-非一等品)。(变量2个: 一等品和个数,Cases 2个:1 19 和0 4) 加权:Data->Weight Cases:个数 Analyze-> Nonparametric Tests-> Binomial
Analyze-> Nonparametric Tests->Chi Square Test Variable: lmt 想要检验的变量 由于这是一个均匀分布检测,使用默认选择(Expected
Values:All categories equal作为零假设); 比较有用的结果:sig=.111>0.5,不能拒绝零假设,认为均
点数,共观察了2608次。数据data12-05(1个变量zd, 2608
个cases,按0-10排序)。试问这种分布规律是否服从泊松分布
Analyze-> Nonparametric Tests->1-Sample K-S
Test Variable: zd Test Distribution: Poisson 比较有用的结果:
认为挑边器出现AB面是随机的。
Runs Test
Test Valuea Total Cases Number of Runs Z Asymp. Sig. (2-tailed)
a. User-specified.
TBH 2
31 21 1.469 .142
12.4 一个样本柯尔莫哥洛夫-斯米诺夫检验 1-Sample Kolmogorov-Smirnov test
单样本K-S检验是利用样本数据推断总体是否服从某一理论分布,
适用于探索连续型随机变量的分布形态(判断定距变量的分布情
况):Normal正态分布、Uniform均匀分布、Poisson泊松分布、
Exponential指数分布。
实例 :卢瑟福和盖革作了一个著名的实验,他们观察了长为7.5秒
的时间间隔里到达某个计数器的由某块放射物资放出的alfa粒子质
ZD 2608
3.8673 .012 .010
-.012
Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
.611 .850
a. Test distribution is Poisson.
b. Calculated from data.
12.5 两个独立样本检验
12.7 两个相关样本检验 2 related Samples Test
同一个被测试者,前后测两次,彼此相关。方法有四种。 实例 :某校15名男生的长跑锻炼后晨脉变化数据。数 据data12-08(2个变量: 锻炼前dlq和锻炼后dlh优, 21个cases)。试问锻炼前后的晨脉有无显著性差异。
Analyze-> Nonparametric Tests-> 2 related Samples
假设认为疗效无显著性差异。
12.6 多个独立样本检验
K independent Samples Test
通过分析多个样本数据,推断它们的分布是否存在显著性差异。方 法有三种:
Median:是通过对中位数的研究来实现推断的 K-W:是通过对推广的平均秩的研究来实现推断的 J-T:与两个独立样本检验的Mann-Whitney U类似
实例 :甲乙两种安眠药服用后的效果。数据data12-06(2个变量: 组别zb和延长时间ycss, 20个cases)。试问这两种药物的疗效 是否有显著性差异。
Analyze-> Nonparametric Tests-> 2 independent Samples
Test Variable: ycss Grouping: zb(1,2) Test type:四种均选 比较有用的结果:比较四个sig值,有三个sig>.5,不能拒绝零
匀。
实例1的数据可以组织成:两个变量(side面和 number次数),6个cases。但在卡方检验前要求用 number加权。结果同。
补充:卡方检验实例
实例:心脏病人猝死人数与日期的关系,收集168个观 测数据。其中用1、2、3、4、5、6、7表示是星期几 死的。而人数分别为55、23、18、11、26、20、15。 推断心脏病人猝死人数与日期的关系是否为 2.8:1:1:1:1:1:1。(变量2个:死亡日期和死亡人数, Cases 7个) 加权:Data->Weight Cases:死亡人数 Analyze-> Nonparametric Tests->Chi Square
均值(3.8673)、 sig=.850>0.5, 不能拒绝零假设,
认为服从泊松分布。
One-Sample Kolmogorov-Smirnov Test
N Poisson Parametera,b
Most Extreme Differences
Mean Absolute Positive Negative
2 independent Samples Test
通过分析两个样本数据,推断它们的分布是否存在显著性差异。方 法有四种:
Mann-Whitney U:是通过对平均秩的研究来实现推断的 K-S Z:是通过对分布的研究来实现推断的 Moses extreme reactions:一个作为控制样本,另一个作为实验样本 Wald Wolfwitz Runs:是通过对游程的研究来实现推断的
Test Variable:死亡日期 Expected Values: 2.8:1:1:1:1:1:1 比较有用的结果:sig=.256>0.5,不能拒绝零假设,认为心
脏病人猝死人数与日期的关系为2.8:1:1:1:1:1:1 。
12.2 二项分布检验 Binomial test
二项分布:在现实生活中有很多的取值是两类的,如人 群的男和女、产品的合格和不合格、学生的三好学生和 非三好学生、投掷硬币的正面和反面。这时如果某一类 出现的概率是P,则另一类出现的概率就是1-P。这种 分布称为二项分布。 实例1:掷一枚比赛用的挑边器31次,变量tbh,1为 出现A面、2为出现A面,试问这挑边器是否均匀。数据 data12-03(31个cases)。
经典统计的多数检验都假定了总 体的背景分布。 但也有些没有假定总体分布的具 体形式,仅仅依赖于数据观测值 的相对大小(秩)或零假设下等 可能的概率等和数据本身的具体 总体分布无关的性质进行检验。 这都称为非参数检验。
为什么用非参数方法?
这些非参数检验在总体分布未知时有很大的优越 性。这时如果利用传统的假定分布已知的检验, 就会产生错误甚至灾难。 非参数检验总是比传统检验安全。 但是在总体分布形式已知时,非参数检验就不如 传统方法效率高。这是因为非参数方法利用的信 息要少些。往往在传统方法可以拒绝零假设的情 况,非参数检验无法拒绝。 但非参数统计在总体未知时效率要比传统方法要 高,有时要高很多。是否用非参数统计方法,要 根据对总体分布的了解程度来确定。
31次,变量tbh,1为出现A面、2为出现A面,试问这
挑边器出现AB面是否随机。数据data12-03(31个
cases)。
Analyze-> Nonparametric Tests-> Runs
Test Variable: tbh Cut Point:Custom:2 比较有用的结果:
总case数(31)、 游程Run数(21)、 sig=.142>0.5, 不能拒绝零假设,
实例 :某车间用四种不同的操作方法检测产品优等品率的实验数 据。数据data12-07(2个变量: 方法ff和优等品率ydpl, 21个 cases)。试问这四种不同的操作方法对产品优等品率是否有显著 性差异。
Analyze-> Nonparametric Tests-> K independent Samples
非参数检验的过程
1. Chi-Square test 卡方检验 2. Binomial test 二项分布检验 3. Runs test 游程检验 4. 1-Sample Kolmogorov-Smirnov test 一endent Samples Test 两个独立样本检验 6. K independent Samples Test K个独立样本检验 7. 2 related Samples Test 两个相关样本检验 8 . K related Samples Test 两个相关样本检验
12.1 卡方检验 Chi-Square test
这里介绍的卡方检验可以检验列联表中某一个变量的各 个水平是否有同样比例或者等于你所想象的比例(如 5:4:1) 实例1:掷骰子300次,变量LMT,1、2、3、4、5、 6分别代表六面的六个点,试问这骰子是否均匀。数据 data12-01(300个cases)。
Test Variable:一等品 Test Proportion:0.9 比较有用的结果:两组个数和sig=.193>0.5,不能拒绝零假
设,认为该批产品的一等品率达到了90% 。
12.3 游程检验Runs test
单样本变量随机性检验是对某变量值出现是否随机进行
检验。
实例1(同二项分布检验) :掷一枚比赛用的挑边器
Test Variable: ydpl Grouping: ff(1,4) Test type:三种均选 比较有用的结果:比较三个sig值,K-W方法的sig=.009<.05,
拒绝零假设,认为这四种不同的操作方法对产品优等品率是有显 著性差异。其他二个方法的sig>.5,但不用,原因是观测量太 少。
Analyze-> Nonparametric Tests-> Binomial Test Variable: tbh 由于这是一个均匀分布检测,使用默认选择(Test
Proportion:0.5); 比较有用的结果:两组个数和sig=1.00>0.5,不能拒绝零假
设,认为挑边器是均匀。
实例1的数据可以组织成:两个变量(side面和 number次数),2个cases。但在二项分布检验前要 求用number加权。结果同。
认为顾客对三种款式衬衫的喜爱程度是不相同的。
补充:非参数检验
以下的讲义是吴喜之教授有关
非参数检验的讲义,
我觉得比书上讲得清楚。
非参数检验
为什么用非参数方法?
非参数检验
说明:非参数检验这章,请看下面吴 喜之教授的讲义,更为具体的可参看 《统计分析与SPSS的应用》薛薇 编著 人大出版社,2002.7第二次印刷
非参数检验的概念
是指在总体不服从正态分布且分布情况 不明时,用来检验数据资料是否来自同 一个总体假设的一类检验方法。由于这 些方法一般不涉及总体参数故得名。 这类方法的假定前提比参数性假设检验 方法少的多,也容易满足,适用于计量 信息较弱的资料且计算方法也简单易行, 所以在实际中有广泛的应用。
Cochran Q:要求样本数据为二值的(1-满意 0-不满意) Friedman:利用秩实现 Kendall协同系数检验:H0:协同系数为0(评分标准不相关的
或者是随机的) 实例 :9个顾客对三种款式衬衫的喜爱程度(1-最喜爱 2-其
次 3-不喜爱)。数据data12-09(3个变量: 款式A,款式B, 款式C, 27个cases)。试问顾客对三种款式衬衫的喜爱程度 是否相同。 Analyze-> Nonparametric Tests-> k related Samples
Test Pairs: dlq-dlh Test type:选一种或多种 比较有用的结果:看sig值,sig<.05, 拒绝零假设,
认为锻炼前后的晨脉有显著性的差异。
12.8 多个相关样本检验
K related Samples Test
对多个被测试者,多个打分,看打分是否有显著性差异。 方法有三种:
补充:二项分布检验实例
实例:为验证某批产品的一等品率是否达到90%,现 从该批产品中随机抽取23个样品进行检测,结果有19 个一等品(1-一等品,0-非一等品)。(变量2个: 一等品和个数,Cases 2个:1 19 和0 4) 加权:Data->Weight Cases:个数 Analyze-> Nonparametric Tests-> Binomial
Analyze-> Nonparametric Tests->Chi Square Test Variable: lmt 想要检验的变量 由于这是一个均匀分布检测,使用默认选择(Expected
Values:All categories equal作为零假设); 比较有用的结果:sig=.111>0.5,不能拒绝零假设,认为均
点数,共观察了2608次。数据data12-05(1个变量zd, 2608
个cases,按0-10排序)。试问这种分布规律是否服从泊松分布
Analyze-> Nonparametric Tests->1-Sample K-S
Test Variable: zd Test Distribution: Poisson 比较有用的结果:
认为挑边器出现AB面是随机的。
Runs Test
Test Valuea Total Cases Number of Runs Z Asymp. Sig. (2-tailed)
a. User-specified.
TBH 2
31 21 1.469 .142
12.4 一个样本柯尔莫哥洛夫-斯米诺夫检验 1-Sample Kolmogorov-Smirnov test
单样本K-S检验是利用样本数据推断总体是否服从某一理论分布,
适用于探索连续型随机变量的分布形态(判断定距变量的分布情
况):Normal正态分布、Uniform均匀分布、Poisson泊松分布、
Exponential指数分布。
实例 :卢瑟福和盖革作了一个著名的实验,他们观察了长为7.5秒
的时间间隔里到达某个计数器的由某块放射物资放出的alfa粒子质
ZD 2608
3.8673 .012 .010
-.012
Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
.611 .850
a. Test distribution is Poisson.
b. Calculated from data.
12.5 两个独立样本检验
12.7 两个相关样本检验 2 related Samples Test
同一个被测试者,前后测两次,彼此相关。方法有四种。 实例 :某校15名男生的长跑锻炼后晨脉变化数据。数 据data12-08(2个变量: 锻炼前dlq和锻炼后dlh优, 21个cases)。试问锻炼前后的晨脉有无显著性差异。
Analyze-> Nonparametric Tests-> 2 related Samples
假设认为疗效无显著性差异。
12.6 多个独立样本检验
K independent Samples Test
通过分析多个样本数据,推断它们的分布是否存在显著性差异。方 法有三种:
Median:是通过对中位数的研究来实现推断的 K-W:是通过对推广的平均秩的研究来实现推断的 J-T:与两个独立样本检验的Mann-Whitney U类似
实例 :甲乙两种安眠药服用后的效果。数据data12-06(2个变量: 组别zb和延长时间ycss, 20个cases)。试问这两种药物的疗效 是否有显著性差异。
Analyze-> Nonparametric Tests-> 2 independent Samples
Test Variable: ycss Grouping: zb(1,2) Test type:四种均选 比较有用的结果:比较四个sig值,有三个sig>.5,不能拒绝零
匀。
实例1的数据可以组织成:两个变量(side面和 number次数),6个cases。但在卡方检验前要求用 number加权。结果同。
补充:卡方检验实例
实例:心脏病人猝死人数与日期的关系,收集168个观 测数据。其中用1、2、3、4、5、6、7表示是星期几 死的。而人数分别为55、23、18、11、26、20、15。 推断心脏病人猝死人数与日期的关系是否为 2.8:1:1:1:1:1:1。(变量2个:死亡日期和死亡人数, Cases 7个) 加权:Data->Weight Cases:死亡人数 Analyze-> Nonparametric Tests->Chi Square
均值(3.8673)、 sig=.850>0.5, 不能拒绝零假设,
认为服从泊松分布。
One-Sample Kolmogorov-Smirnov Test
N Poisson Parametera,b
Most Extreme Differences
Mean Absolute Positive Negative
2 independent Samples Test
通过分析两个样本数据,推断它们的分布是否存在显著性差异。方 法有四种:
Mann-Whitney U:是通过对平均秩的研究来实现推断的 K-S Z:是通过对分布的研究来实现推断的 Moses extreme reactions:一个作为控制样本,另一个作为实验样本 Wald Wolfwitz Runs:是通过对游程的研究来实现推断的
Test Variable:死亡日期 Expected Values: 2.8:1:1:1:1:1:1 比较有用的结果:sig=.256>0.5,不能拒绝零假设,认为心
脏病人猝死人数与日期的关系为2.8:1:1:1:1:1:1 。
12.2 二项分布检验 Binomial test
二项分布:在现实生活中有很多的取值是两类的,如人 群的男和女、产品的合格和不合格、学生的三好学生和 非三好学生、投掷硬币的正面和反面。这时如果某一类 出现的概率是P,则另一类出现的概率就是1-P。这种 分布称为二项分布。 实例1:掷一枚比赛用的挑边器31次,变量tbh,1为 出现A面、2为出现A面,试问这挑边器是否均匀。数据 data12-03(31个cases)。
经典统计的多数检验都假定了总 体的背景分布。 但也有些没有假定总体分布的具 体形式,仅仅依赖于数据观测值 的相对大小(秩)或零假设下等 可能的概率等和数据本身的具体 总体分布无关的性质进行检验。 这都称为非参数检验。
为什么用非参数方法?
这些非参数检验在总体分布未知时有很大的优越 性。这时如果利用传统的假定分布已知的检验, 就会产生错误甚至灾难。 非参数检验总是比传统检验安全。 但是在总体分布形式已知时,非参数检验就不如 传统方法效率高。这是因为非参数方法利用的信 息要少些。往往在传统方法可以拒绝零假设的情 况,非参数检验无法拒绝。 但非参数统计在总体未知时效率要比传统方法要 高,有时要高很多。是否用非参数统计方法,要 根据对总体分布的了解程度来确定。
31次,变量tbh,1为出现A面、2为出现A面,试问这
挑边器出现AB面是否随机。数据data12-03(31个
cases)。
Analyze-> Nonparametric Tests-> Runs
Test Variable: tbh Cut Point:Custom:2 比较有用的结果:
总case数(31)、 游程Run数(21)、 sig=.142>0.5, 不能拒绝零假设,
实例 :某车间用四种不同的操作方法检测产品优等品率的实验数 据。数据data12-07(2个变量: 方法ff和优等品率ydpl, 21个 cases)。试问这四种不同的操作方法对产品优等品率是否有显著 性差异。
Analyze-> Nonparametric Tests-> K independent Samples
非参数检验的过程
1. Chi-Square test 卡方检验 2. Binomial test 二项分布检验 3. Runs test 游程检验 4. 1-Sample Kolmogorov-Smirnov test 一endent Samples Test 两个独立样本检验 6. K independent Samples Test K个独立样本检验 7. 2 related Samples Test 两个相关样本检验 8 . K related Samples Test 两个相关样本检验
12.1 卡方检验 Chi-Square test
这里介绍的卡方检验可以检验列联表中某一个变量的各 个水平是否有同样比例或者等于你所想象的比例(如 5:4:1) 实例1:掷骰子300次,变量LMT,1、2、3、4、5、 6分别代表六面的六个点,试问这骰子是否均匀。数据 data12-01(300个cases)。
Test Variable:一等品 Test Proportion:0.9 比较有用的结果:两组个数和sig=.193>0.5,不能拒绝零假
设,认为该批产品的一等品率达到了90% 。
12.3 游程检验Runs test
单样本变量随机性检验是对某变量值出现是否随机进行
检验。
实例1(同二项分布检验) :掷一枚比赛用的挑边器
Test Variable: ydpl Grouping: ff(1,4) Test type:三种均选 比较有用的结果:比较三个sig值,K-W方法的sig=.009<.05,
拒绝零假设,认为这四种不同的操作方法对产品优等品率是有显 著性差异。其他二个方法的sig>.5,但不用,原因是观测量太 少。
Analyze-> Nonparametric Tests-> Binomial Test Variable: tbh 由于这是一个均匀分布检测,使用默认选择(Test
Proportion:0.5); 比较有用的结果:两组个数和sig=1.00>0.5,不能拒绝零假
设,认为挑边器是均匀。
实例1的数据可以组织成:两个变量(side面和 number次数),2个cases。但在二项分布检验前要 求用number加权。结果同。