第六章 简单统计分析与SAS过程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 总体均值的非参数检验(总体不服从正态分布) 利用UNIVARIATE过程中的符号检验与威尔克森秩 和检验。
data consume; input expend number @@; dif=expend-720; cards; 500 8 600 15 750 30 800 25 900 13 1000 9 ; proc univariate alpha=0.1; var dif; freq number; run;
k 2
( f 0i f ei ) 2 ~ 2 (k 约束个数) 2 2 (k 约束个数) 1 2 f ei i 1 2 或 2 2 (k 约束个数) 其中f 0i为观测频数,f ei为理论频数。
例6.3 某企业欲了解其产品订单的分布情况,在 随机选择的一周中发现,其订单频数分布如下表:
又由方差是否相等(Equality of Variances)的F检验:F值 =1.31,P值Pr>F=0.5658(>0.05),故认为两组方差相等。 因此可用T检验对两组均值是否相等进行检验,对应T检验 的T值=-1.32,P值Pr>|T|=0.1938(>0.05),接受原假设,即 A,B两地区家庭收入没有显著差异。
第六章
简单统计分析与SAS过程
一、假设检验与SAS过程
例题6.1: 为了了解农村居民家庭消费水平是否有所提高, 2008年,某市对其农村居民家庭进行了一次抽样调查,其 中100户被抽样家庭的调查结果如下表: 表6.1 2008年某市农村居民家庭月均消费水平 平均每户消费支出 家庭数 500 8 600 700 15 30 800 900 1000 25 13 9
data consume; input expend number @@; dif=expend-720; cards; 500 8 600 15 750 30 800 25 900 13 1000 9 ; proc means mean t prt; var dif; freq number; output out=meant t=tv; run;
若3年前该市农村居民家庭月均消费支出服从N(720,17580), 假定2008年月均消费支出服从正态分布,问该市农村居民家庭 月均消费支出是否有显著提高?(显著性水平0.05)
即在方差未知的情况下检验 720是否成立。
统计量的计算值、临界值、显著性水平及检验 概率之间的关系 假定 原假设:H 0 : 0
由于 chisq统计量值满足ci1<chisq<ci2,正好落在拒绝域外, 故接受原假设,认为方差没有发生显著变化。 另一方面,p=0.48018>0.05也表明,在0.05的显著性水平下, 接受原假设。
(二)单样本的非参数假设检验 • 总体分布的拟合优度检验 拟合优度检验是根据样本的经验分布对总体分布 作出的估计。 K.Pearson提出以下统计量: 拒绝域:
备责假设:H1 : 0
检验统计量Z服从正态分布
统计量的计算值:一次抽样观测值代入统计量Z后 得到的数值Z0. 临界值:在给定的显著性水平下,由
P{ z z 2 } 计算出的z 2 当 z0 z 2时,拒绝H 0接受H1
统计量的计算值、临界值、显著性水平及检验 概率之间的关系
显然,tv的值>t1且p值也<0.05,故在0.05的显著性水平下拒 绝原假设,也即接受居民月均消费支出显著大于720.
• 总体方差的假设检验
2 原假设:H 0 : 2 0 2 备责假设:H1 : 2 0
检验统计量:
( xi x )2
i 1 n
拒绝域:

2
0
正态性不满足
data zichfz; input type$ rate@@; cards; pt 99.4 pt 94.8 pt 38.4 pt 52.7 pt 92.1 pt 87.9 pt 334.2 pt 86.9 pt 134.5 pt 74.9 pt 69.9 pt 48.0 pt 104.9 pt 67.8 pt 60.8 pt 59.5 pt 62.0 pt 75.4 pt 715.2 pt 15.3 pt 224.6 pt 90.6 pt 86.7 pt 65.4 pt 77.1 pt 354.2 pt 59.7 nopt 31.3 nopt 54.7 nopt 29.7 nopt 40.0 nopt 55.1 nopt 32.6 nopt 59.2 nopt 46.9 nopt 52.9 nopt 29.1 nopt 64.8 nopt 35.0 nopt 56.6 nopt 44.5 nopt 52.3 nopt 21.8 nopt 52.0 nopt 28.0 nopt 24.0 nopt 13.5 nopt 29.8 nopt 67.1 nopt 17.1 nopt 48.1 nopt 30.8 nopt 32.6 nopt 24.1 ;
proc means var; var expend; freq number; output out=test var=varex; run; data A(drop=_type_); set test; k=_freq_-1; chisq=k*varex/17580; p=1-probchi(chisq,k); ci1=cinv(0.025,k); ci2=cinv(0.975,k); proc print data=a noobs; run;
原假设:H 0 : 0
检验统计量:
2 当 2 0 时,U
备责假设:H1 : 0
拒绝域:
x 0 ~ N (0,1) 0 n
u u
1

2
2 当 2 0 时,t
x 0 ~ t (n 1) s n
t t1 2 (n 1)
原假设:H 0 : 0
A地 区 B地 区 2.5 2.9 3.7 4.1 3.2 5.3 4.3 3.6 3.8 4.2 3.9 3.8 4.0 3.9 4.7 4.4 3.3 3.1 5.3 5.1 4.5 4.7 3.8 3.7 4.2 5.7 6.0 5.5 5.1 3.0 2.9 3.4 4.9 2.7 5.2 3.8 3.8 4.6 4.8 4.6
程序说明: • div=dif*dif/fei;
• proc means sum; var div; output out=test sum=chisq; n ( f 0i f ei )2 计算 2 , 记为chisq f ei i 1
• p=1-probchi(chisq,k);
• 满足正态性而不满足方差齐次性时,采用参数的 近似T检验或非参数的威尔克森秩和检验。
• 两个条件都不满足时,采用非参数的威尔克森秩和 检验。(proc nparlway wilcoxon;)
满足正态分布条件
例6.4: 某银行考虑在两个相邻地区A和B之间开设一个
新的营业网点。银行所关心的时这两个地区家庭平均收入 是否相同。为此,在这两个地区分别抽取了20户居民家庭 进行调查,调查结果如下表: 表6.4 地区A和B家庭平均收入水平情况
3.9 A 4.0 B 2.9 A 4.9 B 3.8 A 3.9 B 3.4 A 2.7 B
4.7 A 3.3 B 5.2 A 3.8 B 4.4 A 3.1 B 3.8 A 4.6 B
5.3 4.8 5.1 4.6
area=A的正态性检验结果
area=B的正态性检验结果
由于W检验的P值都大于给定的显著性水平,故接受原假设, 认为都服从正态分布。
由于检验变量dif=expend-720的t值=3.17, 概率pr>|t|的值为0.0020,小于显著性水平0.05,故
在0.05的显著性水平下推断出dif的均值显著不为0,也即居 民月均消费支出显著不等于720.
进一步检验H 0 : 720 0 H1 : 720 0
data a; set meant; k=_freq_-1; p=1-probt(tv,k); t1=tinv(0.95,k); proc print;run; • p=1-probt(t,k) 计算概率p(t tv) t1=tinv(0.95,k);计算t分布的0.95分位数
原假设:H 0 : A B 备责假设:H1 : A B
•样本需满足以下两个条件:正态性,方差齐次性。 检验统计量:
t x1 x2 ~ t (n1 n2 2) 1 2 1 s ( ) n1 n2
拒绝域
t பைடு நூலகம்1 2 (n1 n2 2)
检验可通过Proc ttest实现
检验概率: 由P{ z z0 }计算出的概率p
由临界值和检验概率的计算公式,可知
当p 时,必有 z0 z 2,故拒绝H 0,接受H1
因此,判断接受或拒绝H0只需看p大于还是小于 即可。
单样本和两样本下的假设检验
单样本的假设检验 (一)单样本的参数假设检验(正态分布总体) • 总体均值的假设检验
2

( n 1) S
2

2 2
2 1 2 2
(n 1 )
0
2
~ 2 ( n 1)
或 2 (n 1 )
例6.2:检验例6.1中居民消费支出的方差是否有 变化,即是否仍为17580。 原假设:H 0 : 2 17580 备责假设:H1 : 2 17580
( f 0i f ei )2 计算 f ei
计算p{ 2 chisq}
• ci1=cinv(0.025,k); ci2=cinv(0.975,k);
2 分布的0.025和0.975分位数。 分别计算
由于 chisq统计量值满足ci1<chisq<ci2,正好落在拒绝域外, 故接受原假设,认为订单在每周的5天中服从均匀分布。 另一方面,p=0.45299>0.05也表明,在0.05的显著性水平下, 接受原假设。
表6.3 订单频数分布表 星期一 7 星期二 星期三 星期四 12 15 11 星期五 15 合计 60
问:该企业的订单在每星期5天中是否服从均匀分布?(显著性 水平0.05)
程序实现:
data chisq;input foi fei@@; dif=(foi-fei);div=dif*dif/fei; cards; 7 12 12 12 15 12 11 12 15 12 ; proc means sum; var div; output out=test sum=chisq; run; data A; set test; k=_freq_-1; p=1-probchi(chisq,k); ci1=cinv(0.025,k); ci2=cinv(0.975,k); proc print data=a noobs; run;
程序说明:
• chisq=k*varex/17580; 计算检验统计量 2 • p=1-probchi(chisq,k); 计算概率p( 2 chisq)
• ci1=cinv(0.025,k); ci2=cinv(0.975,k); 2 分布的0.025和0.975分位数。 • 分别计算
问:这两个地区的家庭平均收入是否有显著差异?(显著性水 平0.05)
data income; input area$ income@@; cards; A 2.5 B 3.7 A 3.2 B 4.3 A 3.8 B A 4.5 B 3.8 A 4.2 B 6.0 A 5.1 B A 2.9 B 4.1 A 5.3 B 3.6 A 4.2 B A 4.7 B 3.7 A 5.7 B 5.5 A 3.0 B ; proc sort; by area;run; proc univariate normal; var income;by area;run; proc ttest ; class area; var income ; run;
总体不服从正态分布,利用符号检验与威尔克森秩和检验 (符号秩检验)。 由于Pr>=|M|的P值小于0.0001, Pr>=|S|的P值为0.002, 都小于给定的显著性水平, 故拒绝原假设,认为dif均值不为零,与即认为居民家庭月均消费 支出显著大于720.
两样本的假设检验
(一)两独立组的假设检验 独立组:两样本来自于两个独立总体
检验统计量:
2 当 2 0 时,U
备责假设:H1 : 0
拒绝域:
x 0 ~ N (0,1) 0 n
u u1
t t1 (n 1)
x 0 当 时,t ~ t (n 1) s n
2 2 0
对于总体均值的假设检验,可转化为均值是否为零 的检验,可通过PROC MEANS过程实现,只需在选 项中选择t,prt,和clm,alpha。 即检验H 0 : 0 0 H1 : 0 0 •例6.1程序:
相关文档
最新文档