第七章 非参数检验-χ2检验
非参数检验
![非参数检验](https://img.taocdn.com/s3/m/03b5aa77a417866fb84a8e9e.png)
“Exact”可以定义各种不同分布下的显著性检验, 使计算更精确: “Asymptotic only”适合于渐进分布的大样本分 布。 “Monte Carlo” 适合不满足渐进分布的大样本分 布。 “Confidence”指定置信区间。 “Number of”指定近似法计算中的个案数。 “Exact”精确计算统计概率。 按钮“Options”中可以设置选项: 统计描述“Descriptive” 中将计算: 均值、标准差、最大值、最小值等。 “Quartiles” 四等分百分位数的计算。 缺失值“Missing Value”: “Exclude cases test by test”表示排除在做统计 分析的变量中含有缺失值的个案。 “Exclude cases listwise”表示排除在检验变量
K-S 分布的拟合优度检验 一、K-S检验概念 K-S检验是检验:实际分布与理论分布的差异是否显著。 Kolmogorov:样本分布是否满足某理论分布(均匀、 正态、泊松) Smirnov: 比较两种统计推断是否相同 二、操作步骤 执行 [Analyze][Nonparametric Test][1-Sample K-S] 选择检验变量到Test Variables检验变量窗口中 定义分布方式,复选项: 正态“Normal” 均匀“Uniform” 泊松“Poisson” 指数“Exponential”
Ei
经过查表可得到P P>α 不显著 P<= α显著
H0假设:样本的测量频数Qi与期望频数Ei差异不显 著。 二、操作步骤 执行[Analyze][Nonparametric Test][Chi-Square] 选择检验变量到“Test Variables”检验变量窗口中 回答期望值“Expected values”: “All categories equal”表示均匀分布,即每项的 频数都相等。缺省选项:总频数/分组数,这是一种平 均分布 “Values”为指定各个项的频数。 检验变量取值范围“Expected Range”: “Get from data”为不限定。 “Use specied range”指定上下限。
数学建模方法-非参数假设检验
![数学建模方法-非参数假设检验](https://img.taocdn.com/s3/m/01f2522403d8ce2f006623a4.png)
两相关样本的非参数检验(2 Related Samples Test)
【例12】clinical trial.sav 比较试验药组(group=1) 治疗前血红蛋白含量(hb1)和治疗后血红蛋白含量(hb2) 有无差异.
这是两组相关计量资料的比较. 结论:P=0.018,有显著性差异.
多个相关样本的非参数检验(K Related Samples Test) 【例13】nonpara_7.sav 分析药物是否有效
两相关样本的非参数检验(2 Related Samples Test) 多个相关样本的非参数检验(K Related Samples Test)
两独立样本的非参数检验(2 Independent Samples Test) 检验两个独立样本间是否具有相同的分布. 【例8】nonpara_3.sav 比较两组人群的RD值有无差别 这是两组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-2),其它使用默认选项即可.从负二项分 布的结论.
单样本的K_S拟合优度检验
检验一计量资料是否服从某种理论分布,这里的分布可以 是正态分布(Normal),均匀分布(Uniform),泊松分布(Poisson), 指数分布(Exponential).
【例7】diameter_sub.sav 检验是否服从正态分布
多个独立样本的非参数检验(K Independent Samples Test) 【例10】nonpara_5.sav 比较三种药物的效果有无差别 这是三组计量资料的比较. 选择要检验的变量和分 类变量,定义分类值(1-3),其它使用默认选项即可. 结论:三组的秩和12.6,7.6,3.8,P=0.008,三种药物的 效果有显著性差异,以甲药效果最好. 【例11】nonpara_6.sav 比较三种固定钉治疗骨折的疗效 这是三组等级/频数资料的比较. 先说明频数变量, 再选择要检验的变量和分类变量,定义分类值(1-3),其它 使用默认选项即可. 结论:P=0.129,故三组无显著性差异.
非参数检验
![非参数检验](https://img.taocdn.com/s3/m/8f40c00810a6f524ccbf85be.png)
?
等级资料的分析方法是否和 一般计数资料的检验方法相同呢?
等级资料的分析应该选用什么方法?
实例1 考察硝苯地平治疗老年性支气管炎的疗效,治疗组 60人,用硝苯地平治疗,对照组58人,常规治疗,两组患
者的性别、年龄、病程无显著性差异,治疗结果见表1。
表 1 治疗组与对照组疗效比较 组别 治疗组 对照组 例数 60 58 例 数 无效 6 14 有效 19 20 显效 35 24 百分比(%) 无效 10.00 24.14 有效 31.67 34.48 显效 58.33 41.38
Test Statistics Chi-Squarea df Asymp. Sig. 身 体状 况 12.135 4 .016
a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 5.0.
分布类型检验
分布位置检验
Nonparametric Test菜单(1)
• 分布类型检验方法
–Chi-Square 检验二项/多项分布 分类资料 –Binomial 检验二项分类变量分布 –Runs 检验样本序列随机性(游程检验) –1-Sample K-S 检验样本是否服从各种分布
Nonparametric Test菜单(2)
ill 1.00 num 1.00
1
2
0.00
399.00
• 1.weight cases by:num • 2.analyze-nonparametric test-binomial
Binomial Test Category 1.00 .00 N 1 399 400 Observed Prop. .00 1.00 1.00 Test Prop. .01 Asymp. Sig. Exact Sig. (1-tailed) (1-tailed) a,b .090 .090
第7章SPSS的非参数检验 ppt课件
![第7章SPSS的非参数检验 ppt课件](https://img.taocdn.com/s3/m/c3848bb1ddccda38366baf7c.png)
ppt课件
19
SPSS多独立样本非参数检验
(一)目的:
– 与样本在相同点的累计频率进行比较.如果相差 较小,则认为样本所代表的总体符合指定的总体 分布.
ppt课件
9
SPSS的单样本K-S检验
K-S检验
(4)基本步骤:
菜单选项:analyze->nonparametric tests->1-sample k-s 选择待检验的变量入test variable list 框 指定检验的分布名称(test distribution)
ppt课件
17
SPSS两独立样本非参数检验
4. 极端反应检验(Moses Extreme Reaction)
首先,将两样本混合并按升序排序。
然后,求出控制样本的最小秩和最大秩,并计算
出跨度=最大—最小+1。
为了消除样本数据中极端值对分析结果的影响,
在计算跨度之前可按比例去除控制样本中部分靠近两端
的样本值,然后再求跨度,得到截头跨度。
样本数据和分组标志 ppt课件
14
SPSS两独立样本非参数检验
(四)基本方法
1.曼-惠特尼U检验(Mann-Whitney U):平均秩检验
将两样本数据混合并按升序排序 求出其秩 对两样本的秩分别求平均 如果两样本的平均秩大致相同,则认为两总体分布无显著 差异
ppt课件
15
SPSS两独立样本非参数检验
如果跨度或截头跨度较大,则说明是由于两类样
本数据充分混合的结果,p即pt课:件认为两总体分布无显著差异18 .
SPSS两独立样本非参数检验
(五)基本操作步骤
菜单选项:analyze->nonparametric tests->2 independent sample 选择待检验的变量入test variable list框 选择一种或几种检验方法
第7章spss非参数检验
![第7章spss非参数检验](https://img.taocdn.com/s3/m/9de25e473c1ec5da50e270fc.png)
Statistics按钮: 计算卡方值,用于行列
变量的独立性检验
计算pearson和spearman 相关系数
定类资料的行列变 量相关性检验
定序资料的行列变 量相关性检验
定序与定距资料的行 列变量相关性检验
评判内部一致性 相关风险比例 两相关二项分类变量的非参检验
二项分类变量的因、自变量独立性检验
p(1 p) / n
17
【界面设置】
检验的落入第一组的 概率常数值
分组值,小于该值为1 组,其余为1组
注意大小样本的选择
18
【结果形式】
19
7.3 Runs 游程检验 主要用于对二分变量(数值型)或利用断点分 为两组的变量,检验取值的分布随机性或两总体分 布是否一致,即一个case的取值是否影响下一个。 统计原假设H0:样本二分值分布是随机的或两总体分 布相同。
5、 2 Independent Samples 两独立(成组)样本检验
6、 K Independent Samples K个独立样本检验 5、 2 Related Samples 两关联(配对)样本检验 6、 K Related Samples K个关联样本检验
2
7.1 Chi-Square
1、卡方拟合优度检验 (Nonparametric Tests - Chi-Square) 主要用于分析实际频数与理论频数(已知)拟合情况;χ2 值反映了实际频数和理论频数的吻合程度。χ2值越小, 说明实际频数与理论频数越吻合。 适用于一个变量的多项分类数据的检验分析。 统计原假设:实际频数与理论频数相等或实际构成比等于 已知构成比。 k ( f 0 f e )2 卡方统计量为 2
25
【界面设置】
第七章SPSS非参数检验
![第七章SPSS非参数检验](https://img.taocdn.com/s3/m/63ac158b9fc3d5bbfd0a79563c1ec5da50e2d6a6.png)
二、SPSS两独立样本非参数检验
(一)目的 由独立样本数据推断两总体的分布是否存在显著差异
(或两样本是否来自同一总体)。 (二)基本假设 H0:两总体分布无显著差异(两样本来自同一总体) (三)数据要求 样本数据和分组标志
•第七章SPSS非参数检验
二、SPSS两独立样本非参数检验
– 与样本在相同点的累计频率进行比较。如果相差较小,则认为样
本所代表的总体符合指定的总体分布。
•第七章SPSS非参数检验
一、SPSS单样本非参数检验
(三)K-S检验 (4)基本步骤
菜单选项:analyze->nonparametric tests->1-sample k-s 选择待检验的变量入test variable list 框 指定检验的分布名称(test distribution)
将两样本混合并按升序排序 分别计算两个样本在相同点上的累计频数和累计频率 两个累计频率相减。 如果差距较小,则认为两总体分布无显著差异
应保证有较大的样本数
案例:7-5 p194使用寿命
•第七章SPSS非参数检验
二、SPSS两独立样本非参数检验
3.游程?检验(Wald-Wolfowitz runs)
一、SPSS单样本非参数检验
(二)总体分布的二项分布检验 (1)目的
通过样本数据检验样本来自的总体是否服从指定的 概率p的二项分布根据 (2)原假设 样本来自的总体与指定的二项分布无显著差异。 (3)案例7-2 p187 产品合格率
•第七章SPSS非参数检验
一、SPSS单样本非参数检验
(三)K-S检验 (1)目的
•第七章SPSS非参数检验
五、SPSS多配对样本非参数检验
非参数检验I:χ2检验
![非参数检验I:χ2检验](https://img.taocdn.com/s3/m/c2fceb9508a1284ac8504378.png)
S
x ) ( xi1 S
x)
,
其中Ф为N(0,1)的分布函数,可查表得到。
T i = 200·Pi
男孩身高 是否符合正态分布3
2 r (Oi Ti )2 11.0963
i 1
Ti
x 自由度df = 9-1-2 = 6 (∵用, 、S2作为μ, σ2的估计量,
∴应再减去二个自由度)。查χ2分布表,得:
96
37
31
15
合计 179
是否符合9 : 3 : 3 : 1的规律2
2 3 (Oi Ti )2
i0
Ti
(96 100.6875)2 (37 33.5625)2 (31 33.5625)2 (15 11.1875)2
100.6875
33.5625
33.5625
11.1875
0.2182 0.3521 0.1956 1.2992
H0:Oi
=
T
i;HA:Oi
≠
T
,但检验是上
I
单尾检验。
(2)确定显著水平
(3) 由H0:Oi = T I出发,计算样本资料的χ2值 (4)根据df 和显著水平,查χ2临界值。
(5)结果判断 χ2大于χ2临界值,否定H0; χ2小于χ2临界值 ,接受H0;
Pearson统计量的应用主要有以下两个方面:
df = r c r c 1 (r 1) (c 1)
= (行总数-1)×(列总数-1)
计算各格理论值Ti
口服(B)
注射(B)
列总数
有效(A)
无效(A )
O1 = 58
98 122 T1 193 61.95
O3 = 64
T3
SPSS软件应用-第七章非参数检验
![SPSS软件应用-第七章非参数检验](https://img.taocdn.com/s3/m/ab542e800508763230121234.png)
病例号 照射前 照射后
1
1.0 0.0
2
1.0 18.0
3
0.0 6.7
4
1.2 0.0
5
1.0 29.0
6
1.0 17.0
7
1.0 5.0
8
1.0 6.0
9
1.0 10.0
10
4.0
7.0
Questions &
Answers
饲料
肝脏内铁含量(μg)
A 2.23 1.14 2.63 1.00 1.35
B 5.59 0.96 6.96 1.23 1.61
C 4.50 3.92 10.33 8.23 2.07
练习2
10例食管癌病人在某种药物保护下,做 6000γ的放射照射,观察血中淋巴细胞 畸变百分数,结果如下表。问照射前后 血中淋巴细胞畸变百分数有无差别。
7.1 拟合优度检验(1-Sample K-S Test)
以例7-1数据(数据文件名“diameter_sub.sav”)为例,试检验变量 “trueap_mean”(矢状面管径)是否服从正态分布。
7.1 拟合优度检验(1-Sample K-S Test)
7.1 拟合优度检验(1-Sample K-S Test)
第二步:Analyze Nonparametric Test Legacy Dialogs 2 Related Samples Test
7.5 两个相关样本的非参数检验
7.5 两个相关样本的非参数检验
7.5 两个相关样本的非参数检验
7.6 多个相关样本的非参数检验
牙齿 普通 RPI Y型 编号 卡环 卡环 卡环
7.2 样本率与总体率比较的二项分布检验(Binomial)
X2检验
![X2检验](https://img.taocdn.com/s3/m/ac2742e8f7ec4afe05a1df8d.png)
第七章X2检验Chi-square testX2分布——计数资料第一节四格表资料的X2检验一、X2检验的基本思想1、X2分布(1)X2分布是一种连续型分布:X2分布(chi-squaredistribution)只有一个参数,即解放度。
当解放度V《2时,曲线呈L形随着V的增加,曲线逐渐趋于对称当解放度V—00无穷时,X2分布趋近正态分布(2)X2分布的一个基本性质是它的可加性:(X1+X2)——X2(V1+V2)(3)X2分布的界值:X2值愈大,P值愈小;反之,X2值愈小,P值愈大。
2、X2检验的基本思想四格表(fourfold table)资料PearsonX2——X2={Σ(A-T)2/T } V =(行数-1)(列数-1)A为实际频数(actual frequency)T为理论频数(theoretical frequency)——根据检验假设H0:π1=π2确定的。
T(RC)=nRnC/nT(RC)为第R行(row)第C列(column)的理论频数,nR为相应行的合计,nC为相应列的合计,n为总列数。
X2值反映了实际频数与理论频数的吻合程度。
3、X2检验的步骤H0::π1=π2,即试验组与对照组——总体有效率相等H1::π1≠π2,即——————————————不等ɑ=0.05——T值——V——P值二、四格表资料X2检验的专用公式X2=(ad-bc)2n/(a+b)(a+c)(d+b)(d+c)a,b,c,d为四格表的实际频数;(a+b)(a+c)(d+b)(d+c)是周边合计数;n为总例数,n=a+b+c+d.四格表资料X2检验的校正公式三、X2C=(Iad-bcI-n/2)2n/(a+b)(a+c)(d+b)(d+c)(1)当n》40且所有的T》5时,用X2检验的基本公式或四格表资料X2检验的专有公式;(2)当n》40但有1《T《5时,用四格表资料X2检验的校正公式。
(3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。
非参数检验卡方检验讲解
![非参数检验卡方检验讲解](https://img.taocdn.com/s3/m/91838404ff00bed5b9f31d72.png)
行总和 பைடு நூலகம்1=100 R2=80 T=180
C1=120
( f oij f eij )2 f eij
(58 66.7)2 (42 33.3)2 (62 53.3)2 (18 26.7)2 7.61 66.7 33.3 53.3 26.7
2 0.05 (1) 3.84
独立性检验
配合度检验
• 例1:某大学二年级的公共体育课是球类 课,根据自己的爱好,学生只需在篮球、 足球和排球三种课程中选择一种。据以 往的统计,选择这三种课程的学生人数 是相等的。今年开课前对90名学生进行 抽样调查,选择篮球的有39人,选择足 球的28人,选择排球的23人,那么,今 年学生对三种课程选择的人数比例与以 往不同?
df (行数-1) (列数-1) 1
2 2 0.05 (1)
拒绝零假设,即男女对公共场所禁烟的态度有显著差异。
四格表的简易算法
赞成 男 女 A 58 C 62 A+C=120 不赞成 B 42 D 18 B+D=60 A+B=100 C+D=80 N=A+B+C+D=180
N ( AD BC ) 7.61 ( A B)(C D)( A C )( B D)
• • •
类别数据的处理形态: 次数与百分比 类别数据的呈现: 次数分布表与列联表 类别数据的分析: 卡方检验与其它关联性 分析法
卡方检验的主要内容
•
•
配合度检验
– – – – 某一个变量是否与某个理论分布或总体分布相符合 检验的内容仅涉及一个变量,是一种单因子检验 同时检测两个类别变量﹙X与Y﹚之间的关系时,其 目的在于检测从样本得到的两个变量的观察值,是 否具有特殊的关联。 检测同一个样本的两个变量的关联情形
非参数检验
![非参数检验](https://img.taocdn.com/s3/m/771dea8571fe910ef12df878.png)
组别 95-99 90-94 85-89 80-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49
fo 4 12 18 28 44 72 46 40 22 18 10 314
组上限 99.5 94.5 89.5 84.5 79.5 74.5 69.5 64.5 59.5 54.5 49.5
fe 行合计数 列合计数 总次数
, fb , fd
( a b )( b d ) abcd ( c d )( b d ) abcd
注意:2×2列联表的自由度df=(2-1)(2-1)=1
例 为比较某新药与传统药物治疗脑动脉硬化的疗效, 临床试验结果见表,问两种药物的疗效有无差异? 表 两种药物治疗脑动脉硬化的疗效 处理措施 新药组 有效 无效 合计 44 24 68
41(38.18) 3(5.82)
传统药物组 18(20.82) 6(3.18) 合计 59 9
• 4、关于2×2列联表在数据合并上应注意 的问题 • 2×2列联表只是 的一个特例,实际上, 在很多情况下,变量的分类不止两个,当 我们把各部分数据合并成2×2列联表来表 达时,可能会忽略其中一些重要的变量, 造成 检验的失真,即可能会出现这样的 情况:单独分析每一个2×2列联表所得的 结果与合并成一个2×2列联表所做的 分 析结果相矛盾。
2
( 69 74 . 4 ) 74 . 4
(16 11 . 6 ) 11 . 6
22 . 2748
• 3、推断:
取 0 . 05 , df 5 1 4 , 查表得: 22 . 2748
2 2 0 . 05 ( 4 ) 2 0 . 05 ( 4 )
非参数检验
![非参数检验](https://img.taocdn.com/s3/m/be4380182a160b4e767f5acfa1c7aa00b52a9d20.png)
非参数检验的优点:
①适用范围广,不论样本来自的 总体分布形式如何,都可适用;
②某些非参数检验方法计算简便, 研究者在急需获得初步统计结果时可 采用;
的总体分布不同。 α=0.05
2.混合编秩
依据两组数值由小到大编秩,结果 见上表。
3.求秩和并确定检验统计量T
把两组秩次分别相加求出两组的秩 和值,R1=315.5,R2=149.5。因乳 酸钙组样本含量较小,故 T=R2=149.5。
4.确定P值和作出推断结论 以较小样本含量为n1,n1=14, n2n1=2,查附表6,两样本比较秩和检验 用T界值表(双侧)。
当n1>20或(n2-n1)>10时,附表6 中查不到P值,则可采用正态近似法求u 值来确定P值,其公式如下:
u T n1(N 1) / 2 0.5 n1n2(N 1) 12
上式中T为检验统计量值,n1、n2 分别为两样本含量,N=n1+n2,0.5这 连续性校正数。上式为无相同秩次时使 用或作为相同秩次较少时的近似值。当 两样本相同秩次较多(超过总样本数的 25%)时,应按下式进行校正,u经校 正后可略增大,P值则相应减小。
式中,Ri为各组的秩和,ni为各组 样本含量,N为总样本含量。
当各组相同秩次较多时,可对H值进 行校正,按下式求值。
Hc H c
C 1
(t
3 j
t
j
)
(N3 N)
4.确定P值和作出推断结论
当组数K=3,每组样本含量ni≤5时, 可查附表7(H界值表)得到P值。若 k>3或ni>5时,H值的分布近似于自 由度为k-1的χ2分布,此时可查附表 4χ2界值表得到P值。最后按P值作出 推断结论。
卡方检验与非参数检验
![卡方检验与非参数检验](https://img.taocdn.com/s3/m/fd862092250c844769eae009581b6bd97e19bc75.png)
卡方检验与非参数检验卡方检验与非参数检验是统计学中常用的两种假设检验方法。
它们在样本数据不满足正态分布或方差齐性等假设条件的情况下,仍可以进行假设检验,因此被称为非参数检验方法。
本文将详细介绍卡方检验与非参数检验的原理、应用以及比较。
一、卡方检验卡方检验是一种用于检验两个或多个分类变量之间是否存在相关性的统计方法。
它将实际观察到的频数与期望的频数进行比较,从而判断两个分类变量是否存在相关性。
卡方检验主要包括卡方拟合度检验、卡方独立性检验和卡方配对检验等。
1.卡方拟合度检验卡方拟合度检验适用于比较观察到的频数与理论上期望的频数是否有显著差异。
例如,我们可以通过卡方拟合度检验来判断一组骰子的点数是否是均匀分布的。
该方法首先根据理论假设计算每个类别的期望频数,然后计算观察频数与期望频数的差异,并根据差异的大小判断是否有显著差异。
2.卡方独立性检验卡方独立性检验适用于比较两个分类变量之间是否存在相关性。
例如,我们可以使用卡方独立性检验来判断性别与喜好类别之间是否存在相关性。
该方法首先根据理论假设计算每个类别的期望频数,然后计算观察频数与期望频数的差异,并根据差异的大小判断是否有显著差异。
3.卡方配对检验卡方配对检验适用于比较同一组体在两个时间点或处理条件下的观测值是否有差异。
例如,我们可以使用卡方配对检验来判断一种药物在服药前后对疾病症状的治疗效果。
该方法通过比较观察值和期望值之间的差异来判断是否有显著差异。
非参数检验是一种不依赖于总体分布的统计方法,它不对总体的分布形态做出任何假设,因此适用于任何类型的数据。
常见的非参数检验方法包括Wilcoxon符号秩检验、Mann-Whitney U检验、Kruskal-Wallis H检验等。
1. Wilcoxon符号秩检验Wilcoxon符号秩检验适用于比较两组配对样本数据是否存在差异。
例如,我们可以使用Wilcoxon符号秩检验来判断一种药物在服药前后对患者血压的影响。
非参数检验I:χ2检验.
![非参数检验I:χ2检验.](https://img.taocdn.com/s3/m/cf4a85c56f1aff00bed51e72.png)
Pearson统计量的自由度可能发生变化 一般来说,如果给定的分布函数F(x)中不含有未知参数, 则Pearson统计量的自由度就是r – 1; 但如果 F(x) 中含有一个或几个未知参数,需要用从样本中 计算出的估计量代替,则使用了几个估计量自由度一般就应 在r – 1的基础上再减去几。 如,观测值共分了9组,自由度本应为9 – 1 = 8,但由于理论 分布的μ和σ2未知,使用估计量代替,因此自由度应为8 – 2 = 6。
非参数检验I:χ2检验 参数检验,也就是说检验目标是判断总体参数是否 等于某一指定值,或两个总体的某一参数是否相等。
非参数检验,检验的目标一般与参数无关,而是总 体分布的某种性质是否存在,例如是否服从某种指定 的分布,两个事件是否独立等等。
χ2检验在非参数检验中应用相当广泛。
χ2分布
在一个总体中进行随机抽样, n 为样本含量,具有 r 种不同属 性出现(或可分为r组),Oi为样本中第i种属性出现的次数的观察 值,T为 i样本中第 i种属性出现次数的理论值,则 Pearson统计量定 义为: 2 r
连续性矫
若自由度为1,则应作连续性矫正,即把统计量改为:
r
ቤተ መጻሕፍቲ ባይዱ
2 i 1
( Oi Ti 0.5) Ti
2
假设测验步骤 (1)建立假设: H0:Oi = T i;HA:Oi ≠ T I,但检验是上 单尾检验。 (2)确定显著水平 (3) 由H0:Oi = T I出发,计算样本资料的χ2值 (4)根据df 和显著水平,查χ2临界值。 (5)结果判断 χ2大于χ2临界值,否定H0; χ2小于χ2临界值 ,接受H0;
pi P( xi 1 xi x xi 1 x x xi ) ( ) ( ) S S
非参数χ2 检验的两个局限性问题
![非参数χ2 检验的两个局限性问题](https://img.taocdn.com/s3/m/ecc74217a2161479171128fb.png)
使用 χ2 分析时,必须保 证 样 本 容 量 n 足 够 大,以 确 保 χ2 的 抽 样 (概 率 )分 布 接 近 于 理 论 上 的 分 布 。因 为 由 抽 样 得 到 的 χ2 值的分布是离散分布, 其中频数为整数,而理论上的 χ2 分 布是连续型分布, 因此 χ2 分析的结 果只能是理论分布的近 似。当样本容量 n 很 大 时 , 用 连 续 型 χ2 分 布 作 为 离 散 型 随 机变量的概率分布的逼近将是一种很好的逼近, 这类似于 用连续型的正态分布作为离散型的二项分布的逼近一样。
方法进行检验。
表2
到达间隔数据子样
13 6 8 10 3 7 5 5 5 2 5 5 13 3 7 4 7 16 1 3 2 4 1 1 1
1 4 2 8 2 2 0 3 0 2 3 0 5 5 0 0 4 7 2 0 6 5 31 2 0
两种分组方法分别是:
到达间隔区间 1
( 0, 1) ( 1, 2) ( 2, 4) ( 4, 6) ( 6, 12) ( 12- )
易
知
:
E11=
O1●×O●1 n
=
100×75 220
=34.1;
E12=65.9; E21=40.9; E12=79.1
总第 93 期
问题探讨
·9·
2
!! χ2= i
r =
1j
c =
1
(Oij - Eij ) Eij
=1.37
查 χ2 分 布 表 得 到 χ20.05(1)=3.84, 由 于 χ2<!2" , 故 接 受 原
在 这 个 例 子 中 , 样 本 容 量 为 220 检 验 和 1100 时 , 男 职
SPSS的非参数检验
![SPSS的非参数检验](https://img.taocdn.com/s3/m/f276582e3169a4517723a32a.png)
– 理论依据
如果从一个随机变量X中随机抽取若干个观察样本, 这些观察样本落在X的k个互不相交的子集中的观察 频数服从一个多项分布,这个多项分布当k趋于无穷 时近似服从卡方分布。
卡方统计量
Pearson卡方:
( fi 0 − fi e )2 χ2 = ∑ ∼χ 2 (k − 1), fi 0 i =1
m − 1 n − 1 2 k − 1 k − 1 P ( R = 2k ) = , N n m − 1 n − 1 m − 1 n − 1 2 + 2 k − 1 k k k − 1 P( R = 2k + 1) = N n
7.3.1 曼-惠特尼 惠特尼U(Mann-Whitney U) 检验 惠特尼 • 用于对两总体分布的比较判断。 用于对两总体分布的比较判断。 • H0:两组独立样本来自的两总体分布无显著差异 • 基本步骤: 基本步骤:
– 将两组样本数据 1, X2,…, Xm)和(Y1, Y2,…, Yn) 混合并按升 将两组样本数据(X 和 幂排序,得到每个数据各自的秩R 幂排序,得到每个数据各自的秩 i。 – 记第一个样本观测值的秩的和为 X而第二个样本秩的和为 记第一个样本观测值的秩的和为W WY。对秩分别求平均,对两个平均秩的差距比较。如果相 对秩分别求平均,对两个平均秩的差距比较。 差甚远,则此时零假设可能是不成立的。 差甚远,则此时零假设可能是不成立的。 – 计算 1, X2,…, Xm)每个秩优先于 1, Y2,…, Yn) 每个秩的个 计算(X 每个秩优先于(Y 每个秩优先于 以及(Y 每个秩优先于(X 数U1,以及 1, Y2,…, Yn)每个秩优先于 1, X2,…, Xm)每个 每个秩优先于 每个 秩的个数U 比较U 如果相差较大, 秩的个数 2,比较 1和U2 。如果相差较大,则应怀疑零假 设的真实性。 设的真实性。 – 依据计算 依据计算Wilcoxon W统计量和曼 惠特尼 统计量。 统计量和曼-惠特尼 统计量。 统计量和曼 惠特尼U统计量
7非参数检验
![7非参数检验](https://img.taocdn.com/s3/m/8ab2de1ff01dc281e53af0bf.png)
T
nn 12n 1
24
检验统计量可计算为:
Z T T T
T nn 1/ 4 nn 12n 1
24
(17.3)
例4:32人的射击小组经过三天集中训 练,训练后与训练前测验成绩见表17-8。 问三天的集中训练有无显著效果?
表17-8 集训前后成绩计算表
序号 前测 后测 序号 前测 后测 序号 前测 后测 序号 前测 后测
表17-4 集训前后成绩
序号 前测 后测 序号 前测 后测 序号 前测 后测 序号 前测 后测
1 42 40 9 60 64 17 50 44 25 20 36 2 38 35 10 47 39 18 25 26 26 60 42 3 53 56 11 12 15 19 63 59 27 51 44 4 49 41 12 32 30 20 45 37 28 28 23 5 24 21 13 65 61 21 39 32 29 34 30 6 54 60 14 48 58 22 48 53 30 62 68 7 43 34 15 54 52 23 66 56 31 60 60 8 51 40 16 62 58 24 57 54 32 49 45
非参数检验不要求样本所属的总体呈 正态分布,一般也不是对总体参数进行检 验。非参数检验不仅适用于非正态总体名 义变量和次序变量的资料,而且也适用于 正态总体等距变量和比率变量的资料。
一. 两相关样本的检验
两相关样本的数据是一一对应的成对 数据,因此相关样本又称为配对样本。 对两相关样本的数据进行非参数检验 的方法主要有符号检验法和符号等级检 验法。
在零假设条件下,二项分布的平均 数和标准差分别为
np n
2
假设 : p 1
3、χ2检验
![3、χ2检验](https://img.taocdn.com/s3/m/150b3524cfc789eb172dc81f.png)
结果说明:
本例df=1,需用连续性校正公式, 故采用Continuity Correction(连续性校 正的卡方值)的统计结果。 χ2=7.944, P=0.005 结果表明灭螨剂A组的杀螨率极显 著高于灭螨剂B组
?
张文彤
C h i -S q u a r e Te s t s Value 6.133b 5.118 6.304 df Asymp. Sig. (2-sided) .013 .024 .012 Exact Sig. (2-sided) .018 Exact Sig. (1-sided) .011
间断变量。
本班男、女生人数: 药物治疗效果:
χ2检验与测量数据假设检验的区别(2)
测量数据所来自的总体要求呈正 态分布; χ2检验的数据所来自的总体分布 是未知的。
χ2检验与测量数据假设检验的区别(3) 测量数据的假设检验是对总体参数或 几个总体参数之差所进行的假设检验; χ2 检验在多数情况下不是对总体参
独立性检验
同质性检验
适合性检验(吻合度检验) 是指对样本的理论数先通过一 定的理论分布推算出来,然后用实际 观测值与理论数相比较,从而得出实 际观测值与理论数之间是否吻合。因 此又叫吻合度检验。
独立性检验
是指研究两个或两个以上的计数 资料或属性资料之间是相互独立的或 者是相互联系的假设检验。
通过假设所观测的各属性之间没
与理论值完全符合。 原理
理论值观测值χ2来自Ⅰ高Ⅱ
Ⅲ
低
χ2检验统计量的基本形式
χ2= ∑ (Oi-Ei)2 Ei
O:实际观察的频数(observational frequency) E:无效假设下的期望频数(expectation frequency)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
观测值与理论值的差异由抽样误差引起,即
观测值=理论值。同时给出相就的备择假设HA : 观测值与理论值的差值不等于0,即观测值≠理
论值
2.确定显著水平α 一般确定为0.05或0.01
3.计算样本的χ 2值
4.进行统计推断 χ χ
2
< χ > χ
2
α
P > α P < α
H0 H0
HA HA
2
2
α
χ2检验的注意事项
有效频率,即P(AB)=P(A)P(B)=98/193 ×122/193
理论频数Ei=理论频率×总数
= (98/193 ×122/193) ×193
=(98 × 122)/193=61.95
即Eij=Ri×Cj/T=行总数×列总数/总数
E11= R1 × C1/T=61.95
E21= R2 × C1/T=60.05
又叫列联表(contigency table)χ2检验, 它是研究两个或两个以上因子彼此之间是独立还 是相互影响的一类统计方法。
(一)2×2列联表的独立性检验
设A,B是一个随机试验中的两个事件,其中A 可能出现r1 、r2个结果,B可能出现c1、c2个结果, 两因子相互作用形成4格数,分别以O11 、O12 、 O21 、O22表示,下表是2×2列联表的一般形式
三、χ2检验的用途
适合性检验
独立性检验
同质性检验
适合性检验(吻合度检验)
是指对样本的理论数先通过一定的理论分布推算出来, 然后用实际观测值与理论数相比较,从而得出实际观
测值与理论数之间是否吻合。因此又叫吻合度检验。
适合性检验的零假设是观测次数与理论次数之间无差
异。其中理论次数的计算一般是根据某种理论,按一
876只羔羊性别调察
性别
公 母 合计
观察值(O)
428 448 876
理论值(E)
438 438 876
O-E
-10 +10 0
要回答这个问题,首先需要确定一个统计量,
将其用来表示实际观测值与理论值偏离的程度;
然后判断这一偏离程度是否属于抽样误差,即进 行显著性检验。 判断实际观测值与理论值偏离的程度,最简 单的办法是求出实际观测值与理论值的差数。
98(R1) 95(R2)
有效率
59.2% 67.4%
总数
122(C1)
71(C2)
193(T)
1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α =0.05
3.根据H0,运用概率乘法法则:事件A与事件B同时
出现的概率为:P(AB)=P(A)P(B)
口服与有效同时出现的理论频率=口服频率×
总数 50 50
总数
30
70
100
1.提出假设. H0:性别与对食品的偏爱无关 HA:性别与对食品的偏爱有关 2.确定显著水平.(=0.05) 3.检验计算.
c
2
( 10 15
( 40 35 0.5) 2 35
( 30 35 0.5) 2 35
3.857
4.统计推断.0.052=3.84,由于c20.052,所以应该否 定H0而接受HA,即性别与对食品的偏爱有关,男女消费 者对两类食品有不同的态度.
给药方式与给药效果的2×2列联表 给药方式
口服 注射
有效
58 64
无效
40 31
总数
服从某种理论分布或某种假设分布所作的假设
检验,即根据样本的频数分布来推断总体的分
布。
χ2检验与测量数据假设检验的区别 测量数据的假设检验,其数据属于连续变量,
而χ2检验的数据属于点计而来的间断变量。 测量数据所来自的总体要求呈正态分布,而
χ2检验的数据所来自的总体分布是未知的。
测量数据的假设检验是对总体参数或几个总体
χ2= ∑
Ei
χ2值的特点
可加性
非负值
随O和E而变化
χ2= ∑ (Oi-Ei)2
Ei
χ2值与概率P成反比, χ2值越小,P值越大, 说明实际值与理论值之差越小,样本分布与假设的 理论分布越相一致;
χ2越大,P值越小,说明两者之差越大,样本
分布与假设理论分布越不一致。
基本步骤
1.提出无效假设H0
例:在英语四级考试中,某学生做对了80个四择一选择题中
的28题,现在要判断该生是否是完全凭猜测做题 假如该生完全凭猜测做题,那么平均而言每道题做对的可能 性是1/4,因此80个题中平均而能做对80/4=20题,代入公 式有:
因此,该生可能会做一些题。
例:鲤鱼体色子代分离是否符合3:1比率
鲤鱼遗传试验子代观测结果 体色 子代观测尾 数 青灰色 1503 红色 99 总数 1602
定的概率通过样本即实际观测次数来计算。这里所说
的某种理论,可能是经验规律,也可能是理论分布。
确定理论次数是卡方检验的关键。
独立性检验
是指研究两个或两个以上的计数资料或属性 资料之间是相互独立的或者是相互联系的假设检 验,通过假设所观测的各属性之间没有关联,然 后证明这种无关联的假设是否成立。
同质性检验
χ2值就越大,越不符合;偏差越小,χ2值就越小,
越趋于符合;若两值完全相等时,χ2值就为0,表明 理论值完全符合。
理论值
观测值
Ⅰ
Ⅱ
Ⅲ
χ2检验统计量的基本形式
k
χ2= ∑ (Oi-Ei)2 Ei
O--实际观察的频数(observational frequency) E--无效假设下的期望频数(expectation frequency)
著差异?
按国际柑橘协会讨论会的统计结果,132个柑橘应该有
132/12=11人是霉菌感染变质的,剩下的121个非变质柑橘,
代入公式有:
因此,在0.05和显著性水平下,该地区被霉菌感染柑 橘变质比率与国际柑橘讨论会的统计结果有显著差异,显然 根据比例可知该地区柑橘霉菌感染率小于国际柑橘协会讨论 会的统计结果。
在连续型资料的假设检验中,对一个样本方
差的同质性检验,也需进行χ2 检验。
χ2检验的原理与方法
χ2检验的基本原理 χ2检验统计量的基本形式
χ2值的特点
χ2检验的基本步骤 χ2检验的注意事项
χ2检验就是统计样本的实际观测值与理论推算
值之间的偏离程度。
实际观测值与理论推算值之间的偏离程度就决定
其χ2 值的大小 。理论值与实际值之间 偏差越大 ,
由于检验的对象-次数资料是间断性的,而χ 2分布
是连续型的,检验计算所得的χ 2值只是近似地服从χ 所得的χ 2值就有一定的偏差。 由次数资料算得的χ 2均有偏大的趋势,即概率偏 低。当df=1,尤其是小样本时,必须作连续性矫正。
2
分布,所以应用连续型的χ 2分布的概率检验间断性资料
χ
2
c=
∑
( Oi-Ei - 0.5 )2
性别 男性 女性
“有机” 10 20
常规 40 30
总数 50 50
总数
30
70
100
例: 有一调查以研究消费者对“有机”食品和常规食品 的态度.在超级市场随机选择50个男性和50个女性 消费者,问他们更偏爱哪类食品,结果如下.
性别 男性 女性
“有机” 10(15) 20(15)
常规 40(35) 30(35)
对于资料组数多于两组的值,还可以通过下面简式进 行计算:
O 1 n n pi
2
2 i
Oi -第 i 组的实际观测数
pi -第 i 组的理论比率
n-总次数
独立性检验
独立性检验的定义
2×2 列联表的独立性检验 2×c列联表的独立性检验
r×c列联表的独立性检验
独立性检验 (independence test)
(1)H0:鲤鱼体色子代分离符合3:1比率; HA:鲤鱼体色子代分离不符合3:1比率;
(2)取显著水平α =0.05 (3)计算统计数χ
2
:
需要连续性校正
df= k-1 = 2-1 =1
在无效假设H0正确的前提下,青灰色的理论数为:
Ei =1602×3/4=1201.5
红色理论数为: Ei =1602×1/4=400.5
1、任何一组的理论次数Ei 都必须大于5,如果Ei
≤5,则需要合并理论组或增大样本容量以满足
Ei >5 2、在自由度=1时,需进行连续性矫正,其矫正 的χ2c为: χ2c=
∑
( Oi-Ei - 0.5 )2
Ei
χ 2分布是连续型变量的分布,每个不同的自由度都有一个相 应的χ 2分布曲线,所以其分布是一组曲线。
映(O-E)2 的比重,最后将各组求和,这个总 和就是χ2 。
羔羊性别观测值与理论值 性别 公 母 合计 观测值 (O) 428 448 876 (Oi-Ei)2 理论值(E) 438 438 876 O-E -10 +10 0 (O-E)2 /E 0.2283 0.2283 0.4566
χ2值就等于各组观测 值和理论值差的平方与理 论值之比,再求其和。
参数之差所进行的假设检验,而χ2 检验在多 数情况下不是对总体参数的检验,而是对总体 分布的假设检验。
二、χ2检验与连续型资料假设检验的区别
χ2 检验 数据资料 总体 检验对象
连续型资料假设检验
连续型资料 正态分布
离散型资料
总体分布是未知的
不是对总体参数的检 验,而是对总体分布 的假设检验
对总体参数或几个总体 参数之差
羔羊性别观察值与理论值
性别
公 母 合计
观察值(O)