第九章单变量检验问题
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 结果的解释
• 两组有显著差异
– p值小于临界概率值,则结果为统计显著的,应拒绝零假设。 – 对独立组,两组的均值显著不同; – 对成对组,平均差值显著不为零。
• 两组无显著差异
– p值大于临界概率值,则不能拒绝零假设。 – 对独立组,两组的均值无显著差异; – 对成对组,平均差值与零的差异不显著。
F ( x) (1 / n) j 1 ( x j x)
n
– NPAR1WAY利用第j个分类水平中的子样本值 生成一个EDF( Fj ),于是全部样本的EDF也 可写成:
F ( x) (1 / n) j (n j F j )
j组水平 中的样 本量
• 5.成对差值的t检验
– 对同一总体的两个变量的比较; – 检验两组测量值的平均水平有无显著差异; – 转化为:检验两变量间的差值的均值是否为零。 – 5.1 前提:2个假定
– 用于比较两个独立组的一种非参数检验。 – 类似于两样本的t检验。 – 也称Mann-Whitney U检验 – 此检验只需假设观测独立 – 可用于有序变量、区间变量、比例变量 – 在SAS中的实现:过程步NPAR1WAY。
• 4.1 NPAR1WAY过程步
– (1)一般形式 PROC NPAR1WAY [DATA=数据集名] [选项]; [VAR 变量名列;] [BY 变量名列;] [CLASS 变量名;] RUN; – (2)功能 • 用于比较两个独立组的一种单因子非参数检验。 • 分析变量的秩,并计算几个基于经验分布函数(EDF) 和通过一个单因子分类的响应变量确定的秩得分的统 计量。 • 计算基于Wilcoxon得分、中位数得分和Savage得分 和Van der Waerden得分的简单线性秩统计量; • 这些统计量用来检验一个变量的分布在不同组中是否 具有相同的位置参数。
• 备选假设: H1: μA ≠ μB
– 两组均值不等
其中μA和μB为A、B两组的均值。
– 比较成对组时
• 零假设:H0: μD= 0
– 差值均值为零
• 备选假设: H1: μD ≠ 0
– 差值均值不为零
Байду номын сангаас
其中μD为A、B两变量差值的均值。
– 统计检验的方法
组的类型
独立组 成对组 检验 两样本t检验 成对差值t检验 的 参数检验 类型 非参数检验 Wilcoxon秩和检验 Wilcoxon符号检验
• CLASS语句:
指定识别变量(分类变量),用于识别观测所在的组,此变量中只 可出现2个不同的值( 2个水平)。
• 例:检验sashelp.class男女学生的身 高均值是否相同。
proc ttest data=sashelp.class; class sex; var height; run;
– 成对组(Paired groups)
• 包含多个个体的样本,样本的每个个体包含成对量 测。 • 典型:以前——以后。 • 分析目的:比判断从“以前”到“以后”的均值的 变化是否比纯粹的偶然变化要大。
• 2.建立两组比较的假设检验
– 比较独立的两组时
• 零假设:H0: μA= μB
– 两组均值相等
t统计量的值相关概率值符号秩符号秩的统计量相关概率值在弹出的对话框中选择testforlocationwilcoxon符号检验wilcoxon秩和检验非参数检验成对差值t检验两样本t检验参数检验成对组独立组检验的类型组的类型因变量分类变量观测个数均值均值置信区间上下限标准差标准差置信区间上下限标准误最小最大值检验方差是否相等的结果自由度用于检验两组均值相等这一零假设的t值在零假设下大于t绝对值的概率f分布的自由度检验统计量f值大于f统计量的概率检验方法dependentgroup变量height的wilcoxon得分和秩和分组变量sex每组的wilcoxon得分和在组间无差别的零假设下wilcoxon得分的期望值零假设下得分和的标准差每组的平均得分wilcoxon两样本检验正态近似t近似p值j组水平中的样本量
• 当观测的秩大于中位点时,得分为1;否则为0。
1 R j (n 1) / 2 a( R j ) 0 R j (n 1) / 2
• 对于双指数分布,此得分是局部最优的;
– 4)Savage得分
• 指数分布的次序统计量的期望值 • 减1使得分以0为中心
a( R j ) j 11 /(n j 1) 1
– (4)结果说明
• 简单统计量(Statistics部分) • 两样本均值的检验(T-Test部分) • 两样本方差是否相等的检验(Equality of Variances部 分)
标准误
均值
分类 变量 因变量 观测个数 均值置 信区间 上下限
标准差 最小最 大值
标准差置 信区间上 下限
检验方差是否 相等的结果
第九章 单变量检验问题
单变量的多组比较
• 问题:
– 男性会计师比女性会计师收入高吗? – 戒烟以后人的体重会增加吗?
• 这些问题都与两组之间的比较有关。
• 1. 独立组与成对组
– 独立组(Independent groups)
• 包含对两组独立样本的量测。 • 分析目的:比较两组的总体均值是否相同。
• 每对观测与其它对观测独立; • 差值来自正态总体。
– 5.2步骤
• 对样本中每个观测求成对变量的差值; • 计算分析差值,对差值=0的假设进行检验。
– 5.3 实现方法
• 步骤1 DATA 新数据集; SET 原数据; diff=after-before; • 步骤2
– 调用UNIVARIATE、MEANS等过程步,对变量diff进行计 算分析。
• 说明:结论不能说明两组均值相等或平均差值为零。
• 3.两样本t检验
– 假设有两组样本分别来自两个独立总体,需检 验两个总体的均值是否一样。 – 即零假设是均值相等,对立假设是均值不等。 – 3.1 检验前提:
• (1)观测是独立的; • (2)样本来自于服从正态分布的总体; • (3)两样本的方差相等。
Rj
• 此得分在指数分布中比较尺度的不同性或在极值分布中 的位置移动上是最优的;
– 5) Van der Waerden得分
• 对正态分布的次序统计量的期望值的近似
a(R j ) 1 (Rj /(n 1))
• 此得分对正态分布是最优的
• 6)基于经验分布函数的统计量
– 一个样本 {x j } j 1,2,...,n 的经验分布函数定义 为:
• 3.3 Analyst中的实现
– 1)选择菜单:Statistics →Hypothesis Tests →Two-Sample t-test for Means...
• 2)设置对话框中的各项参数
Dependent Group
• 3)点击OK按钮后显示结果
• 4.Wilcoxon秩和检验
– (3)说明:
• TTEST语句:
– DATA=数据集名:指明分析对象; – 常用选项: » COCHRAN:在方差不等的情况下要求用Cochran和Cox方 法计算近似t统计量的近似概率水平。
• VAR语句:
指定要分析(比较其均值)的变量名。缺省值:每个数值型变量。
• BY语句:
按指定变量分组统计,要求数据集事先按分组变量排序。缺省值: 不分组。
proc npar1way data=sashelp.class; class sex; var height; run;
– (4)结果
变量Height 的Wilcoxon 得分和(秩 分组变量 和) Sex 每组的 Wilcoxon 得分和
每组的平 均得分
在组间无差别的零 假设下Wilcoxon得 分的期望值 Wilcoxon两 样本检验
在弹出的对话框 中选择Test for Location
– 结果:
• 5.5 Analyst中的实现
– Statistics →Hypothesis Tests →Two-Sample Paired t-test for Means
自由度
用于检验两组 均值相等这一 零假设的t值 在零假设下, 大于t绝对值的 概率
检验方法
F分布的 自由度 检验统计量F值
大于F统计量 的概率
• (5)计算方法
– 1)t统计量
• 设两独立样本分别具有n1和n2个观测,样本均值分别 为 x1 和 x2 ,检验其总体均值是否相等的统计量为
t ( x1 x2 ) / s 2 (1 / n1 1 / n2 )
• 3.2 TTEST过程步
– (1)一般形式
PROC TTEST [DATA=数据集名] [选项]; [VAR 变量名列;] [BY 变量名列;] [CLASS 变量名;] RUN;
– (2)功能
• 首先检验两组的方差是否相等; • 若方差相等,计算t的精确值及其统计的显著程度; • 若方差不相等,计算t近似值及其统计的显著程度;
– 3)近似t统计量
• 在两总体方差不等的假设下,近似t统计量为
t ( x1 x2 ) / w1 w2
• 其中 w1 s1 / n1 , w2 s2 / n2
2 2
• 4)Cochran和Cox近似
– 近似t统计量概率水平的Cochran和Cox近似是 如下统计量的p值:
t (w1t1 w2t2 ) /(w1 w2 )
其中 s 是合并方差:
2
s [(n1 1)s (n2 1)s2 ] /(n1 n2 2)
2
2 1
2
s1
和 s2 分别是两个样本的样本方差。 这个t统计量是建立在两总体方差相等的基础上,此时 统计量t服从自由度为n1+n2 -2的t分布。
2
2
– 2)检验两总体方差相等的统计量
• F统计量的折叠(folded)形式F,用于检验方差相等 的假设,这里 2 2 2 2 F max(s1 , s2 ) / min(s1 , s2 ) • F是双边F检验统计量。 2 2 • 输出Prob>F的值给出在零假设 1 2 成立的条件下 大于F值的概率。
• 结果:
t统计量 的值 相关概 率值
符号秩
符号秩 的统计量
相关概 率值
• 5.4 SAS/INSIGHT中的实现
– 计算两变量的差值变量
• Edit→Variables →Other
– 检验
• Analyze →Distribution • Tables →Test for Location
零假设下 得分和的 标准差 正态近似 t近似
p值
• (5)计算公式
– 1)结值的处理
• 结值:两个或多个观测值相等。 • 通过对应于结值的不同秩赋予一个平均得分,来处理此 情形。
– 2)简单线性统计量
• 线性统计量
S j 1 C j a( R j )
n
• 其中, R j • a( R j ) • Cj • n
• 例:在液体层分析试验中,用两种方法分别测量十份燃料样品 中的萘含量。检验两种方法的平均差值在5%显著水平下是否不 为零。 data chromat; input hp std @@; methdiff=hp-std; cards; 12.1 14.7 10.9 14.0 13.1 12.9 14.5 16.2 9.6 10.2 11.2 12.4 9.8 12.0 13.7 14.8 12.0 11.8 9.1 9.7 ; proc print data=chromat; title'层析方法的差异'; proc univariate data=chromat; var methdiff; run;
– (3)说明:
• NPAR1WAY语句
– DATA=数据集名:指明分析对象; – 常用选项: » ANOVA:对原始数据进行标准方差分析; » EDF:计算基于样本经验分布函数的统计量,包括 Kolmogorov-Smirnov统计量、Cramer-Von messes统计 量、Kuiper统计量; » MEDIAN:中位数得分分析; » SAVAGE:Savage得分分析; » VW: Van der Waerden得分分析; » WILCOXON:对数据或Wilcoxon得分作秩分析;
• VAR语句:
指定要分析的变量名。缺省值:每个数值型变量。
• BY语句:
按指定变量分组统计,要求数据集事先按分组变量排序。缺省值: 不分组。
• CLASS语句:
指定识别变量,用于识别观察所在的组,此变量中只可出现2个不 同的值。
– 例:检验sashelp.class男女学生的身高均值是否相 同。
– 其中t1和t2分别是相应于显著水平p和样本量为 n1和n2的t分布临界值; – 自由度在n1-1和n2-1之间; – 一般地, Cochran和Cox近似趋于保守。
• 5)Satterthwaite的近似
– 用于计算近似t统计量的自由度
(w1 w2 ) 2 df 2 2 w1 /(n1 1) w2 /(n2 1)
是第j个观测的秩 是秩得分 指示向量,表示第j个观测的所属的类 观测个数
– 3) Wilcoxon得分
• 此时 a( R j ) R j • 对Logostic分布的位置移动是局部最优的; • 在计算两样本时的Wilcoxon的秩和统计量时,过程进 行一个连续校正。
– 4)中位数(Median)得分