第7章 群体间的差异比较——非参数检验
ancova(协方差分析)非参数和随机方法
![ancova(协方差分析)非参数和随机方法](https://img.taocdn.com/s3/m/556d39263169a4517723a33a.png)
第7章ANCOV A(协方差分析):非参数和随机方法Peter S. PetraitisSteven J. BeaupreArthur E. Dunham7.1生态学问题生态学参数往往不能满足参数假定的要求。
当这种情况发生时,随机方法是更常用的参数方法,比如协方差分析(ANCOV A)和回归分析的一个很好的替代选择。
使用随机方法很简单,并且由于标准参数ANCOV A为生态学家所熟知,我们用它来激发对非参数和随机方法的优点和存在问题的讨论。
我们通过对检验随机和非参数方法分析性别和生境影响响尾蛇种群的个体大小来进行讨论,年龄在这里被作为一个混淆(confounding)因素考虑。
个体大小的变异常见于许多动物中(即, 无脊椎动物: Paine 1976; Lynch1977; Sebens 1982; Holomuzki 1989; 两栖动物: Nevo 1973; Berven1982;Bruce和Hairson 1990; 有鳞的爬行动物:Tinkle 1972;Dunham 1982; Schwaner 1985; Dunham等1989; 哺乳动物:Boyce 1978;Melton 1982; Ralls和Harvey 1985), 并且由于其与许多繁殖特征, 比如成熟年龄,子代个体的数量和大小,和亲代对子代的投入, 有协变关系,从而引起进化生态学家的极大兴趣,(Stearns 1992; Roff 180, 1992)。
对个体大小变异的解释包括资源的季节性,质量和可利用性(如,Case 1978; Palmer 1984; Schwaner和Sarre 1988), 基于个体大小的捕食性(Paine 1976), 种群密度(Sigurjonsdottir 1984), 特性替代(Huey和Pianka 1974; Huey 等1974)和生长速率的渐变变异(Roff 1980)。
然而个体大小的地理变异可能常由于个体大小决定的生长速率和种群年龄结构的相互作用所致。
《统计分析和SPSS的应用(第五版)》课后练习答案解析(第7章)
![《统计分析和SPSS的应用(第五版)》课后练习答案解析(第7章)](https://img.taocdn.com/s3/m/f9c17e529b6648d7c1c74642.png)
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第7章SPSS的非参数检验1、为分析不同年龄段人群对某商品满意程度的异同,进行随机调查收集到以下数据:满意程度年龄段青年中年老年很不满意126 297 156不满意306 498 349满意88 61 75很满意27 17 44请选择恰当的非参数检验方法,以恰当形式组织上述数据,分析不同年龄段人群对该商品满意程度的分布状况是否一致。
卡方检验步骤:(1)数据→加权个案→对“人数”加权→确定(2)分析→描述统计→交叉表格→行:满意度;列:年龄→Statistics→如图选择→确定满意程度 * 年龄交叉表计数年龄总计青年中年老年满意程度很不满意126 297 156 579 不满意306 498 349 1153满意88 61 75 224很满意27 17 44 88 总计547 873 624 2044卡方检验值自由度渐近显著性(双向)皮尔逊卡方66.990a 6 .000似然比(L) 68.150 6 .000线性关联.008 1 .930McNemar-Bowker 检验. . .b有效个案数2044a. 0 个单元格 (0.0%) 具有的预期计数少于 5。
最小预期计数为 23.55。
b. 仅为 PxP 表格计算(其中 P 必须大于 1)。
因概率P值小于显著性水平(0.05),拒绝原假设,不同年龄度对该商品满意程度不一致。
2、利用第2章第7题数据,选择恰当的非参数检验方法,分析本次存款金额的总体分布与正态分布是否存在显著差异。
分析→非参数检验→旧对话框→1-样本-K—S…→选择相关项:本次存款金额[A5] →确定结果如下:单样本 Kolmogorov-Smirnov 检验本次存款金额数字282正态参数a,b平均值4738.09标准偏差10945.569最极端差分绝对.333正.292负-.333检验统计.333渐近显著性(双尾).000ca. 检验分布是正态分布。
第7章spss非参数检验
![第7章spss非参数检验](https://img.taocdn.com/s3/m/9de25e473c1ec5da50e270fc.png)
Statistics按钮: 计算卡方值,用于行列
变量的独立性检验
计算pearson和spearman 相关系数
定类资料的行列变 量相关性检验
定序资料的行列变 量相关性检验
定序与定距资料的行 列变量相关性检验
评判内部一致性 相关风险比例 两相关二项分类变量的非参检验
二项分类变量的因、自变量独立性检验
p(1 p) / n
17
【界面设置】
检验的落入第一组的 概率常数值
分组值,小于该值为1 组,其余为1组
注意大小样本的选择
18
【结果形式】
19
7.3 Runs 游程检验 主要用于对二分变量(数值型)或利用断点分 为两组的变量,检验取值的分布随机性或两总体分 布是否一致,即一个case的取值是否影响下一个。 统计原假设H0:样本二分值分布是随机的或两总体分 布相同。
5、 2 Independent Samples 两独立(成组)样本检验
6、 K Independent Samples K个独立样本检验 5、 2 Related Samples 两关联(配对)样本检验 6、 K Related Samples K个关联样本检验
2
7.1 Chi-Square
1、卡方拟合优度检验 (Nonparametric Tests - Chi-Square) 主要用于分析实际频数与理论频数(已知)拟合情况;χ2 值反映了实际频数和理论频数的吻合程度。χ2值越小, 说明实际频数与理论频数越吻合。 适用于一个变量的多项分类数据的检验分析。 统计原假设:实际频数与理论频数相等或实际构成比等于 已知构成比。 k ( f 0 f e )2 卡方统计量为 2
25
【界面设置】
第七章SPSS非参数检验
![第七章SPSS非参数检验](https://img.taocdn.com/s3/m/63ac158b9fc3d5bbfd0a79563c1ec5da50e2d6a6.png)
二、SPSS两独立样本非参数检验
(一)目的 由独立样本数据推断两总体的分布是否存在显著差异
(或两样本是否来自同一总体)。 (二)基本假设 H0:两总体分布无显著差异(两样本来自同一总体) (三)数据要求 样本数据和分组标志
•第七章SPSS非参数检验
二、SPSS两独立样本非参数检验
– 与样本在相同点的累计频率进行比较。如果相差较小,则认为样
本所代表的总体符合指定的总体分布。
•第七章SPSS非参数检验
一、SPSS单样本非参数检验
(三)K-S检验 (4)基本步骤
菜单选项:analyze->nonparametric tests->1-sample k-s 选择待检验的变量入test variable list 框 指定检验的分布名称(test distribution)
将两样本混合并按升序排序 分别计算两个样本在相同点上的累计频数和累计频率 两个累计频率相减。 如果差距较小,则认为两总体分布无显著差异
应保证有较大的样本数
案例:7-5 p194使用寿命
•第七章SPSS非参数检验
二、SPSS两独立样本非参数检验
3.游程?检验(Wald-Wolfowitz runs)
一、SPSS单样本非参数检验
(二)总体分布的二项分布检验 (1)目的
通过样本数据检验样本来自的总体是否服从指定的 概率p的二项分布根据 (2)原假设 样本来自的总体与指定的二项分布无显著差异。 (3)案例7-2 p187 产品合格率
•第七章SPSS非参数检验
一、SPSS单样本非参数检验
(三)K-S检验 (1)目的
•第七章SPSS非参数检验
五、SPSS多配对样本非参数检验
ancova(协方差分析)非参数和随机方法
![ancova(协方差分析)非参数和随机方法](https://img.taocdn.com/s3/m/556d39263169a4517723a33a.png)
第7章ANCOV A(协方差分析):非参数和随机方法Peter S. PetraitisSteven J. BeaupreArthur E. Dunham7.1生态学问题生态学参数往往不能满足参数假定的要求。
当这种情况发生时,随机方法是更常用的参数方法,比如协方差分析(ANCOV A)和回归分析的一个很好的替代选择。
使用随机方法很简单,并且由于标准参数ANCOV A为生态学家所熟知,我们用它来激发对非参数和随机方法的优点和存在问题的讨论。
我们通过对检验随机和非参数方法分析性别和生境影响响尾蛇种群的个体大小来进行讨论,年龄在这里被作为一个混淆(confounding)因素考虑。
个体大小的变异常见于许多动物中(即, 无脊椎动物: Paine 1976; Lynch1977; Sebens 1982; Holomuzki 1989; 两栖动物: Nevo 1973; Berven1982;Bruce和Hairson 1990; 有鳞的爬行动物:Tinkle 1972;Dunham 1982; Schwaner 1985; Dunham等1989; 哺乳动物:Boyce 1978;Melton 1982; Ralls和Harvey 1985), 并且由于其与许多繁殖特征, 比如成熟年龄,子代个体的数量和大小,和亲代对子代的投入, 有协变关系,从而引起进化生态学家的极大兴趣,(Stearns 1992; Roff 180, 1992)。
对个体大小变异的解释包括资源的季节性,质量和可利用性(如,Case 1978; Palmer 1984; Schwaner和Sarre 1988), 基于个体大小的捕食性(Paine 1976), 种群密度(Sigurjonsdottir 1984), 特性替代(Huey和Pianka 1974; Huey 等1974)和生长速率的渐变变异(Roff 1980)。
然而个体大小的地理变异可能常由于个体大小决定的生长速率和种群年龄结构的相互作用所致。
第七章非参数检验详解演示文稿
![第七章非参数检验详解演示文稿](https://img.taocdn.com/s3/m/be38586f001ca300a6c30c22590102020740f243.png)
7.1.2二项分布检验
• 1.基本思想
(1)通过样本数据检验样本来自的总体是否服从指定概率p 的二项分布。
(2)小样本-精确检验:计算n次试验中某类出现的次数小 于等于x次的概率:
x
P{X x} Cni piqni i0
大样本-近似检验
Z x 0.5 np np(1 p)
数的个数是否是随机的(零假设为这种个数的出现是随机的)。
第28页,共78页。
• 如关果于把随小机于中性位的数游的程记检为0验,否(则r记un为1t,es上t面)
数据变成下面的0-1序列
•1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0
•
00000110
这就归为上面的问题。当然这里进行这种变换只
两个值的出现是否是随机的。假定下面是由0和 1组成的一个这种变量的样本:
•0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0
0000
• 其中相同的0(或相同的1)在一起称为一个游程
(单独的0或1也算)。
• 这个数据中有4个0组成的游程和3个1组成的游程
。一共是R=7个游程。其中0的个数为m=15, 而1的个数为n=10。
理方式。
• Exclude case test-by-test 选项,将参与对
比中的缺失值排除。
• Exclude cases listwise 选项,剔除任何变量
中所有含缺失值的样品。
第10页,共78页。
3.应用案例
• 医学研究表明心脏病人猝死人数与日期的关系为:
一周内,星期一猝死者较多,其他日子基本相当, 各天的比例近似为:2.8:1:1:1:1:1:1 根据“心脏病猝死”数据,推断总体分布是否与理 论分布相吻合。 分析: 利用总体分布卡方检验实现。
七、非参数检验
![七、非参数检验](https://img.taocdn.com/s3/m/c644ccca0740be1e640e9a0b.png)
等)的资料(必选); 4.单向有序列联表资料; 5. 各种资料的初步分析。
宁夏医科大学流行病与卫生统计学教研室 乔慧
相同试验设计两套统计方法
试验设计
配对设计
成组设计 (两组)
成组设计 (多组)
配伍组设 计 (多组)
两两比较
参数统计 差值均数与总体均 数0的比较的t检验 两样本比较的t检验
方差分析(F检验)
不吸烟 2
23 11 4
0
宁夏医科大学流行病与卫生统计学教研室 乔慧
多个独立样本的非参数检验
例3 14名新生儿出生体重按其母亲的吸烟习惯分组(A组: 每日吸烟多于20支;B组:每日吸烟少于20支;C组:过去 吸烟而现已戒烟;D组:从不吸烟),具体如下。试问四个 吸烟组出生体重分布是否相同?数据见npc.sav:
多个样本两两比较的秩和检验 (Nemenyi法)等
宁夏医科大学流行病与卫生统计学教研室 乔慧
非参数检验
❖ 参数统计方法往往假设统计总体的分布形态已知,但 是在更多的实际场合,常常由于缺乏足够信息,无法合 理地去假设一个总体具有某种分布形式,此时就不能使 用相应的参数方法了。因此,应该放弃对总体分布参数 的依赖,转而寻求更多的纯粹来自数据的信息,这就是 非参数统计方法。
方差分析(F检验) q检验(Newman-
Keuls法)等
秩和检验
配对设计差值的符号秩和检验 (Wilcoxon配对法)
成组设计两样本比较的秩和检验 (Wilcoxon两样本比较法)
成组设计多个样本比较的秩和检验 (Kruskal-Willis法)
配伍组设计多个样本比较的秩和检验 (Friedman法) 等
第七讲非参数检验
![第七讲非参数检验](https://img.taocdn.com/s3/m/f6e793e0ba1aa8114531d91a.png)
2
➢ 非参数检验(nonparametric test)对
数据的总体分布类型不作严格假定, 又称任意分布检验(distribution-free test), ➢ 它直接对总体分布的位置作假设检
验。
3
参数检验
(parametric test)
已知总体分布类型,对 未知参数进行统计推断
计多样本比较
25
10
12
95
100
5
3
合计
─
─
─
54.5
11.5
ห้องสมุดไป่ตู้
8
检验步骤
1. 建立检验假设,确定检验水准
H0 :差值的总体中位数 Md 0 ;H1 :Md 0 ; 0.05
2. 求检验统计量T值
①省略所有差值为0的对子数 ②按差值的绝对值从小到大编秩,相同秩(ties) 则取平均秩
③任取正秩和或负秩和为T,本例取T=11.5。
T=93.5。
16
确定P值,作出推断下结论
1. 查表法 (样本含量较小,根据T查P值)
本例,概率为双侧0.05对应的T值为42-84,T=93.5,超出 该范围,故P<0.05,按α=0.05检验水准,拒绝H0,接受 H1,可以认为两组工人血铅值的总体分布的位置不同。
2. 若n1或n2-n1超出了成组设计T界值的范围, 可用正态近似性检验
0.05
①先确定各等级的合计人数、秩范围和平均秩, 见表8-3的(4)栏、(5)栏和(6)栏,再计算两样 本各等级的秩和,见(7)栏和(8)栏;
②本例n1=39超过了成组设计T界值表范围,需 用近似正态检验,由于相持过多,进行校正;
非参数检验
![非参数检验](https://img.taocdn.com/s3/m/be4380182a160b4e767f5acfa1c7aa00b52a9d20.png)
非参数检验的优点:
①适用范围广,不论样本来自的 总体分布形式如何,都可适用;
②某些非参数检验方法计算简便, 研究者在急需获得初步统计结果时可 采用;
的总体分布不同。 α=0.05
2.混合编秩
依据两组数值由小到大编秩,结果 见上表。
3.求秩和并确定检验统计量T
把两组秩次分别相加求出两组的秩 和值,R1=315.5,R2=149.5。因乳 酸钙组样本含量较小,故 T=R2=149.5。
4.确定P值和作出推断结论 以较小样本含量为n1,n1=14, n2n1=2,查附表6,两样本比较秩和检验 用T界值表(双侧)。
当n1>20或(n2-n1)>10时,附表6 中查不到P值,则可采用正态近似法求u 值来确定P值,其公式如下:
u T n1(N 1) / 2 0.5 n1n2(N 1) 12
上式中T为检验统计量值,n1、n2 分别为两样本含量,N=n1+n2,0.5这 连续性校正数。上式为无相同秩次时使 用或作为相同秩次较少时的近似值。当 两样本相同秩次较多(超过总样本数的 25%)时,应按下式进行校正,u经校 正后可略增大,P值则相应减小。
式中,Ri为各组的秩和,ni为各组 样本含量,N为总样本含量。
当各组相同秩次较多时,可对H值进 行校正,按下式求值。
Hc H c
C 1
(t
3 j
t
j
)
(N3 N)
4.确定P值和作出推断结论
当组数K=3,每组样本含量ni≤5时, 可查附表7(H界值表)得到P值。若 k>3或ni>5时,H值的分布近似于自 由度为k-1的χ2分布,此时可查附表 4χ2界值表得到P值。最后按P值作出 推断结论。
医学统计学-非参数检验
![医学统计学-非参数检验](https://img.taocdn.com/s3/m/125bd009a58da0116d174942.png)
无效
8
合计
B(10-12天)
9
10
7
4
C(21-30天) 16
10
3
1
视分组为无序,即为单向有序表
三总体分布位置相同
三总体分布位置不全同
2. SPSS中实现过程
在菜单中选择“K Independent Samples”命令
“Several Independent Samples:Define Range”对话框
2. SPSS中实现过程
研究问题 对19只小鼠中的9只接种第一种伤寒杆菌,其 余接种第二种伤寒杆菌,接种后的存活天数见 表,判定两种伤寒杆菌的存活天数是否不同。
两总体分布位置相同
两总体分布位置不同
2. SPSS中实现过程
3. 结果
不能认为两总体分布 位置不同,不能认为 接种两种伤寒杆菌的 存活天数不同。
各总体分布位置相同
各总体分布位置不全同
2. SPSS中实现过程
在菜单中选择“K Independent Samples”命令
“Several Independent Samples:Define Range”对话框
3.结果
三个总体分布位置不 全同,三种药物杀灭 钉螺的效果有差别。
三. 两配对样本非参数检验(配对秩和)
post_2 70.00 71.00 75.00 68.00 74.00 70.00 63.00 70.00 65.00 70.00 70.00
post_3 69.00 70.00 75.00 70.00 70.00 69.00 61.00 70.00 65.00 60.00 69.00
实现步骤
(Wilcoxon Signed Rank Test)
7非参数检验
![7非参数检验](https://img.taocdn.com/s3/m/8ab2de1ff01dc281e53af0bf.png)
T
nn 12n 1
24
检验统计量可计算为:
Z T T T
T nn 1/ 4 nn 12n 1
24
(17.3)
例4:32人的射击小组经过三天集中训 练,训练后与训练前测验成绩见表17-8。 问三天的集中训练有无显著效果?
表17-8 集训前后成绩计算表
序号 前测 后测 序号 前测 后测 序号 前测 后测 序号 前测 后测
表17-4 集训前后成绩
序号 前测 后测 序号 前测 后测 序号 前测 后测 序号 前测 后测
1 42 40 9 60 64 17 50 44 25 20 36 2 38 35 10 47 39 18 25 26 26 60 42 3 53 56 11 12 15 19 63 59 27 51 44 4 49 41 12 32 30 20 45 37 28 28 23 5 24 21 13 65 61 21 39 32 29 34 30 6 54 60 14 48 58 22 48 53 30 62 68 7 43 34 15 54 52 23 66 56 31 60 60 8 51 40 16 62 58 24 57 54 32 49 45
非参数检验不要求样本所属的总体呈 正态分布,一般也不是对总体参数进行检 验。非参数检验不仅适用于非正态总体名 义变量和次序变量的资料,而且也适用于 正态总体等距变量和比率变量的资料。
一. 两相关样本的检验
两相关样本的数据是一一对应的成对 数据,因此相关样本又称为配对样本。 对两相关样本的数据进行非参数检验 的方法主要有符号检验法和符号等级检 验法。
在零假设条件下,二项分布的平均 数和标准差分别为
np n
2
假设 : p 1
第7章 群体间的差异比较——非参数检验
![第7章 群体间的差异比较——非参数检验](https://img.taocdn.com/s3/m/0cdc38e787c24028905fc332.png)
(三)二项分布检验(Binominal Test)
结果说明
检验比例
观测比例
单尾 检验的概值小于 5%,则拒绝原假设,认 为外地户口的比例不是 15%。从观测比例来看, 应小于15%。
(三)二项分布检验(Binominal Test)
例:针对“住房状况调查.sav”,分析现住面积在100平米以 上的是否为20%.
针对数据“住房状况调查.sav”,分析本市户口和外地户 口的现住面积和计划面积有无显著差异。
此例适用于双独立样本的T检验。但通过正态性检验发现, 数据不符合正态分布。
样本量足够大的情况下,即使违反正态性假设,T检验也 适用。
此时可做完T检验后再进一步用双独立样本的非参数检验 加以验证。
分析——非参数检验——旧对话框——2个独立样本
进行正态性检验知,样本并不服从正态总体。因此不能采 用t 检验,考虑用配对样本的非参数检验。
配对样本的非参数检验
原假设:前后测的差值为0(这种指导没有作用) 备择假设:后测-前测>0 分析——非参数检验——旧对话框——2个相关样本
Wilcoxon检验和Sign 检验都是假设前后测的 数据有相同的形状分布, 即两个分布有同样的均 值和方差。 因此,配对样本的非参 数检验并不关心分布的 具体类型。
(二)双独立样本的非参数检验
(二)双独立样本的非参数检验
本市户口的 现住面积和 计划面积都 更高。
本市户口和外地 户口的现住面积 差异显著,计划 面积差异不显著。
7.4 多独立样本的非参数检 验
多独立样本的非参数检验
我们在做自变量水平为两个以上的均值比较时,一般采用 方差分析。
方差分析是一种非常稳健的统计分析方法,即在违反数据 要求的情况下往往仍然能够得到科学的结果。
数学统计中的非参数检验与离群值检测
![数学统计中的非参数检验与离群值检测](https://img.taocdn.com/s3/m/4bb42dace109581b6bd97f19227916888586b96b.png)
不受限于数据 分布假设,适
用范围更广
稳健性较好, 不易受到异常
值的干扰
灵活多样,可 根据实际需求 选择适当的非 参数检验方法
对于小样本数 据,非参数检
验效果更佳
非参数检验在离群值检测中的实践案例
案例1:某公司销售数据中异常值的检测 案例2:医学研究中生存数据分析中的离群值检测 案例3:金融市场数据分析中非参数检验的应用 案例4:生物统计学中基因表达数据的离群值检测
非参数检验的优势与局限性
优势:无需严格假设条件, 适用范围广
优势:操作简单,易于理 解和实现
局限性:对数据分布的依 赖性较强
局限性:检验效果受样本 量影响较大
应用场景
适用于数据类型不满足参数检验条件的情况 在数据量较小或分布不明确时,非参数检验更为适用 适用于处理异常值和非正态分布的数据 在探索性数据分析中,非参数检验可以提供更灵活和全面的分析方法
离群值的定义与分类
定义:离群值是在数据集中与其他数据存在显著差异的异常值 分类:基于统计方法、业务逻辑、数据来源等不同分类标准 检测方法:如箱线图、IQR、Z-score等 处理方式:根据具体情况选择保留或剔除离群值
离群值检测的方法
标准化得分:将数据转换为标准分数,通过标准分数判断离群值 均值与标准差:计算数据的均值和标准差,根据均值和标准差判断离群值 箱线图:通过箱线图的上下边缘和四分位数判断离群值 散点图:通过散点图观察数据分布,判断离群值
数学统计中的非参数检验 与离群值检测
目录
非参数检验 离群值检测 非参数检验在离群值检测中的应用 非参数检验与离群值检测的关联与区别
非参数检验与离群值检测的实践建议
非参数检验是一种统计方法,用于比 较两组数据或同一组数据在不同条件 下的差异,而不依赖于数据的分布或 参数。
07.非参数检验
![07.非参数检验](https://img.taocdn.com/s3/m/1ef061b71a37f111f1855baf.png)
1.Frieman检验
2.Kendall协和系数检验 3.Cochran’s Q检验
对比:参数检验
参数检验是在已知总体分布的条 件下,对其中的参数进行的估计与检 验,是一种仅适用于一些特定环境下 的检验。均值t检验就属于参数检验, 首先它对总体分布作出了服从正态分 布的假设,然后根据来自总体的样本 对均值进行检验。
单个样本的检验
1.卡方检验
2.二项分布检验 3.游程检验 4.柯尔莫哥洛夫—斯米诺夫检验
比较
两/多个独立样本的非参数检验
两个独立样本的非参数检验
1.Mann-Whitney U检验
2.柯尔莫洛夫—斯米诺夫双样本检验 3.Moses极端反应检验 4.Wald-Wolfowitz游程检验 例题
多个独立样本的非参数检验例 解新菜单简要评论
( 1)从理论上说,卡方检验可以检验任何形 式的分布状况。但由于需要输入期望值,这 比较麻烦。所以这里的检验往往只做是均匀 分布或假设的特定分布的检验,对比较典型 的理论分布,如正态分布可用K-S 检验,还可 直接用P-P图直观判断。 (2)由于奠定检验基础的皮尔逊定理要求样 本是充分大,所以在搜集资料时必须要保证 样本容量不小于50。
当游程总个数太大或太小时,认为 样本数据不是随机序列。
举例
为了考察两种生产方法对生产效率是否有显著影响, 随机抽取了18人用方法A进行生产,抽取22人用方法 B进行生产,并记录下日产量: A方法:75 69 58 79 69 68 57 89 79 76 63 96 85 57 77 76 81 90
问两种方法对生产效率的影响不同吗?(α=0.05)
非参数检验 Nonparametric
单样本检验 独立样本差异的显著性检验 相关样本差异的显著性检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
假设从两个未知的总体中分别独立、随机地各抽取一个样 本,把两个样本中的案例合并起来,然后按照案例值的大
小进行排序编号,每个数据的编号就是它的秩。 如果混合样本中有相同的数值,就在其所在的位置将这 几个相同的秩求平均,作为这几个案例值相同数值的秩。
男生英 语成绩 70 75 75 80 85 85 排序 编号 1 2 3 4 5 6 成绩 求秩 1 2.5 2.5 5 5.5 5.5 女生英 语成绩 80 85 85 90 90 95 排序 编号 1 2 3 4 5 6 成绩 求秩 1 2.5 2.5 4.5 4.5 6
结果说明
促销形式2的商 品销售额最高。
P值小于5%, 说明三种促销 形式下商品的 销售额有显著 差异。
Kendall协同系数检验主要是一致性检验。
例:有6名歌手参加比赛,4名评委进行评判打分。试推断这4个 评委的评判标准是否一致。数据见“评委打分.sav”。
商品 编号 评委1 评委2 评委3 评委4 秩和 1号歌手 (秩) 8.75(1) 2号歌手 (秩) 9.6(4) 3号歌手 (秩) 9.2(2) 4号歌手 (秩) 9.65(5) 5号歌手 (秩) 9.3(3) 6号歌手 (秩) 9.8(6)
例:针对“社团.sav”,分析参加社团活动的时间是否服从正 态分布。
单样本K-S检验的原假设:样本所属的总体与指定的理论 分布一致。 分析——非参数检验——旧对话框——1-样本 K-S
正态分布 均匀分布
指数分布
泊松分布
结果说明
概值小于0.05,因 此拒绝原假设, 即参与社团活动 的时间不服从正 态分布。
例:利用财经节目.sav分析不同受教育程度对财经节目的喜
好程度有无差异。
秩次越高,对财经节目 的喜好程度越低。
各组差异显 著
32
在 t 检验中,配对样本的t 检验要求前后测的数据来自正 态总体。当样本不服从正态总体时,利用配对样本的t 检
验便可能对结论产生严重误导。这时可以用配对样本的非 参数检验方法。
本市户口的 现住面积和 计划面积都 更高。
本市户口和外地 户口的现住面积 差异显著,计划 面积差异不显著。
25
我们在做自变量水平为两个以上的均值比较时,一般采用 方差分析。
方差分析是一种非常稳健的统计分析方法,即在违反数据 要求的情况下往往仍然能够得到科学的结果。 当数据的正态性假设不能满足的情况下,可进一步采用多 独立样本的非参数检验来进一步说明问题。
例:针对“住房状况调查.sav”,分析外地户口的比例是否为 15%。
二项分布检验的原假设:总体中第一类事件的比例是P。 分析——非参数检验——旧对话框——二项式
输入检验变量 中第一类事件 的比例。
结果说明
检验比例
观测比例 单尾 检验的概值小于 5%,则拒绝原假设, 认为外地户口的比例不 是15%。从观测比例来 看,应小于15%。
8.9(1) 8.75(1) 8.8(1)
4
9.55(4) 9.7(5.5) 9.6(4)
17.5
9.25(2) 9.25(2) 9.25(2)
8
9.75(5.5) 9.6(4) 9.75(5)
19.5
9.45(3) 9.3(3) 9.4(3)
12
9.75(5.5) 9.7(5.5) 9.85(6)
(Kendall)协同系数检验时,样本应是定序、定距或定
比数据。
检验方法为克科伦(Cochran)Q检验时,样本应是二分 变量。
例:为比较三种促销形式对商品销售的影响,收集若干种商品在 不同促销形式下的月销售额数据如下。试分析三种促销形式对销 售额的影响有无显著差异。见数据“促销方式.sav”
例:针对“住房状况调查.sav”,分析现住面积在100平米以 上的是否为20%.
输入检验变量 中第一类事件 的比例。 确定分割点
18
独立样本的t 检验时,要求数据来自正态分布总体的独立 随机样本。或者根据中心极限定理,样本容量足够大,其
均值的抽样分布近似正态分布。 而在样本容量较小的情况下,如果样本呈非正态分布, 这时就要考虑以一种更合理的非参数检验方法来代替独立 样本的t检验。即秩和检验。
23
例:有6名歌手参加比赛,4名评委进行评判打分。试推断这4个 评委的评判标准是否一致。数据见“评委打分.sav”。
此问题可先进行Friedman检验,考察6个歌手的水平是 否存在显著差异。 如果Friedman检验显著,则进一步进行Kendall协同系数
参数检验:利用样本或总体的一些数值属性构造“统计量” (如 t 统计量、F 统计量),然后利用统计量所服从的某 种已知分布来评价某种情况是不是“小概率事件”,进而 拒绝原假设的方法。 参数检验要求样本是独立的、随机的,并且来自同一个正 态总体,以便得到的统计量确实服从某种已知分布。
如果样本来源的总体并非正态的,但样本规模很大且总体 的偏态不明显,参数检验也有一定的适用性; 如果样本来源的总体并非正态的,同时样本规模很少,这 时利用参数检验就会得到错误的结论。
对于任何仅可分成两类的总体,如果已知其中一类事件所 占的比例为P,那么另一类所占的比例必定是1-P,用Q 表示。 对于同一个总体,P值总是固定的。但在抽样过程中,每 次抽样所得的P值都有可能不同。 二项分布就是从二分类的总体中抽得的随机样本中可观察 到的两类比例的抽样分布。考察每个类别中观察值的频数 与特定二项分布下的预期频数间是否存在统计学差异,是 对二分类变量的拟合优度检验。 原假设:总体中第一类事件的比例是P。
英语 排序 成绩 编号 70 75 75 80 80 1 2 3 4 5
性别 男 男 男 男 女
成绩求秩 1 2.5 2.5 4.5 4.5
85 85
85 85 90 90 95
6 7
8 9 10 11 12
男 男
女 女 女 女 女
7.5 7.5
7.5 7.5 10.5 10.5 12
分别计算来自两个样本的 案例值的秩的和。 如果两个样本具有相同 分布,它们的秩和的均值 应该相等。否则,则可推 断两总体的分布是有差异 的。
结果说明
P值小于5%, 说明前后测的 差值是显著的。
36
多配对样本的非参数检验是通过分析多组配对样本数据, 推断样本来自的多个总体的中位数或分布是否存在显著差
异。 数据要求:
各个样本为随机样本
各个样本的数据是配对的,即相关样本,各个样本的容量
相同。 检验方法为弗瑞德曼(Friedman)检验和肯德尔
第7章
7.1 非参数检验概述 7.2 单样本的非参数检验 7.4 双独立样本的非参数检验
7.5 多独立样本的非参数检验 7.6 配对样本的非参数检验
7.7 多配对样本的非参数检验
3
统计量:根据样本所计算出来的样本的各种描述性指标。 如均数、方差、标准差等;
参数:关于总体性质的数量化描述。如通过人口普查计算 得全国人口的平均年龄。 参数估计:采用抽样方法时,可以用样本得到的“统计量” 对“参数”进行估计,也叫参数估计。如用样本均数来推 断总体均数。
利用秩次进行检验,原 假设为K组变量都来自 相同的一个分布,但不 一定要求是正态的,可 以在违反正态性假设的 情况下代替方差分析。
中位数检验
结果说明:
秩次越高,参加社团活 动的时间越多。 各组差异显著
多独立样本的非参数检验(秩和检验),可以对定序变量进 行多组比较,而 t 检验和方差分析的因变量只能是定距!
例:数据社团.sav中,比较低年级学生、本科高年级学生、 硕士生和博士生参加社团活动的时间是否有差别。 在对参加社团活动的时 间做正态性检验时,发 现“time”变量不能通 过正态性检验。
违反正态性假设的前提下,仍可以做方差分析。
方差分析结果显著。此时可进一步进行非参数检验。
分析——非参数检验——旧对话框——K个独立样本
如投掷硬币出现正反两面的变量值序列为
1011011010011000101010000111。 其中连续的1有9组,连续的0有8组,这一序列总的游程数
量为17。
如果硬币的正反面出现是随机的,那么在该序列中,许多 个1或许多个0连续出现的可能性都不大,且1和0频繁交叉 出现的可能性也非常小,因此,游程数太大或太小都将表 明变量值存在不随机的现象。
非参数检验解决了这一问题,它也需要人为地构造一些统计 量,但这些构造出来的统计量并不使用样本的均值或方差等 这类对分布非常敏感的统计量,也不对总体分布的正态性提 出要求,这种方法被称作“非参数检验”。
7
在进行参数检验之前,可以先利用非参数检验看一下数据 来自什么样的总体,即判断样本的分布形状,然后有针对
9865.00 5220.00 10072.00 737.00 9423.00 771.00 639.00 1793.00 4061.00 542.00
2 1 2 2 1 3 2 3 2 3 秩和 21
3 2 3 3 3 1 3 1 3 2 25
1 3 1 1 2 2 1 2 1 1 14
分析——非参数检验——旧对话框——K个相关样本
性地在参数检验和非参数检验之间做出选择。 拟合优度检验:判断分布形状的非参数检验。把实际观 测到的样本与一个理论上的某种分布所对应的理论预测值 进行比较,检验两者是否有显著的差异。包括: