第三讲SAS的基本统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一些单变量检验问题
假设我们有两组样本分别来自两个独立总体,需要检 验两个总体的均值或中心位置是否一样。如果两个总 体都分别服从正态分布,而且方差相等,可以使用两 样本t检验过程TTEST。
proc ttest data=sashelp.class; class sex; var weight; run;
Basic Statistical Measures
Location
Variability
Mean 10.37500 Std Deviation
3.85218
Median 10.00000 Variance
14.83929
Mode 11.00000 Range
12.00000
Interquartile Range
回归分析
在拟合了直线后,为拟合多项式曲线,只要选“Curves | Polynomial”,然后输入阶次(Degree(Polynomial)),就 可以在散点图基础上再加入一条多项式曲线。对于本例,我们 看到二次多项式得到的曲线与直线差别很小,所以用二次多项 式拟合没有优势。还可以试用三次、四次等多项式。为了改变 阶次还可以使用拟合窗口中的多项式阶次滑块(Parametric Regression Fit中的Degree(Polynomial))。
Tests for Normality
Test
--Statistic--- -----p Value------
Shapiro-Wilk
W 0.965083 Pr < W
0.6756
Kolmogorov-Smirnov D 0.134048 Pr > D >0.1500
Cramer-von Mises
检验单个样本的均值是否为零只要使用UNIVARIATE过程, 在UNIVARIATE过程的矩部分给出了均值为零的t检验和符 号检验、符号秩检验的结果。
两配对样本的T检验可根据样本数据对两总体均值之间是否 有差异进行推断。作此类T检验的基本要求是:首先两样本 数据必须两两配对,即样本顺序相同、数目相等等。其次, 两总体是服从正态分布的。最后两配对样本T检验的基本假 设为:两总体均值相同。
一些单变量检验问题
The SAS System
23:06 Friday, October 7, 2005 2
The TTEST Procedure
Statistics
Lower CL
Upper CL Lower CL
Upper CL
Variable Sex
N
Mean Mean
Mean Std Dev Std Dev Std Dev Std Err
一些单变量检验问题
上面的检验中对立假设是两组的均值不等,所以检验是双 边的,p值的计算公式为Pr(t分布随机变量绝对值>计算 得到的t统计量的绝对值)。如果要进行单边的检验,比如 对立假设为女生体重高于男生(右边),则p值为Pr(t分 布随机变量>计算得到的t统计量),当计算得到的t统计量 值为正数时(现在t=4.0)此单边p值为双边p值的一半, 当计算得到的t统计量为负数时肯定不能否定零假设。检 验左边时恰好相反。
Num DF Den DF F Value Pr > F
Weight
Folded F
9
8
1.37 0.6645
一些单变量检验问题
结果有三个部分:两个总体的WEGIHT简单统计量,两 样本均值的检验,以及两样本方差是否相等的检验。标 准的两样本t检验要求两总体方差相等,所以第三部分结 果检验两样本方差是否相等。如果检验的结果为相等, 则可使用精确的两样本t检验,看第二部分结果的Equal 那一行。如果方差检验的结果为不等,则只能使用近似 的两样本t检验,看第二部分结果的Unequal那一行。这 里我们看到方差检验的p值为0.9114不显著,所以可以 认为方差相等,所以我们看Equal行,p值为0.0001在 0.05水平下是显著的,所以应认为男、女生的WEGIHT 分数有显著差异,女生体重要低。
SAS/INSIGHT中未提供两独立样本检验的功能。
成对总体均值检验
我们在现实中经常遇到两个总体是相关的测量结果的比 较,比如,考察同一组人在参加一年的长跑锻炼前后的心 率有无显著差异。这时,每个人一年前的心率和一年后的 心率是相关的,心率本来较快的人锻炼后仍相对于其它人 较快。所以,检验这样的成对总体的均值不能使用两样本 t检验的方法,因为独立性条件不再满足。这时,我们可 以检验两个变量间的差值的均值是否为零,这等价于检验 两组测量值的平均水平有无显著差异。
Weight F
9 75.211 90.111 105.01 13.093 19.384 37.135 6.4613
Weight M
10 92.692 108.95 125.21 15.633 22.727 41.491 7.187
Weight Diff (1-2)
-39.41 -18.84 1.7313 15.923 21.22 31.811 9.7497
在SAS/INSIGHT中为了检验height的分布,先选“Analyze | Distribution”
菜单打开height 变量的分布窗口,然后选“Curves | Test for Distribution”菜
单。除了可以检验是否正态分布外还可以检验是否对数正态、指数分布、Weibull分
布。
SAS软件应用
第四章 SAS的基本统计分析(1)
主讲:上海财经大学统计学系 邵建利
版权所有, 2005 上海财经大学 邵建利
SAS基本统计分析概论
前面我们已经看到了SAS的编程计算、数据管理能力、 数据汇总、数据探索分析能力。这一章我们讲如何用SAS 进行基本的统计检验、线性回归、方差分析、列联表检验 等基本统计分析。我们既使用SAS语言编程,也使用 SAS/INSIGHT的菜单界面。
一些单变量检验问题
对单个变量,我们可能需要作正态性检验、两独立样本均值 相等的检验、成对样本均值相等的检验。
正态性检验
在PROC UNIVARIATE语句中加上NORMAL选项可以进行 正态性检验
proc univariate data=sashelp.class normal; var weight; run;
M
10
119.0
100.0 12.225943 11.900000
F
9
71.0
90.0 12.225943
7.888889
Average scores were used for ties.
Wilcoxon Two-Sample Test
Statistic
71.0000
Normal Approximation
Y f (X)
例如,我们要研究SASHELP.CLASS数据集中学生体重与身 高之间的相关关系。为此,我们可以先画出两者的散点图 (Analyze | Scatter plot)。从图中可以看出,身高越高 的人一般体重越重。我们可以把体重作为因变量、身高作为 自变量拟合一条回归直线,只要选“Analyze | Fit (Y X)”, 并选体重为Y变量,身高为X变量,即可自动拟合出一条回归 直线,见图 。窗口中还给出了拟合的模型方程、参数估计、 诊断信息等,我们在下一小节再详细介绍。
Kruskal-Wallis Test
Chi-Square
2.4151
DF
1
Pr > Chi-Square
0.1202
结果分为四部分:两样本的秩和的有关统计量, Wilcoxon两样本检验的结果,t检验的近似显著性, Kruskal-wallis检验结果。我们只要看Wilcoxon检验的p 值Prob > |Z| = 0.1202,检验结果不显著,可认为男、女 生的体重在0.05水平下无显著差异。
W-Sq 0.057963 Pr > W-Sq >0.2500
Anderson-Darling
A-Sq 0.366427 Pr > A-Sq >0.2500
其中W:Normal为Shapiro-Wilk正态性检验统计量,Pr<W为检验的显著性概率值(p 值)。当N≤2000时正态性检验用Shapiro-Wilk统计量,N>2000时用Kolmogorov D统 计量。我们可以看到,p值很小,所以在0.05水平(或0.10水平)下应拒绝零假设, 即认为height分布正态。
我们只要看其中的三个检验:T: Mean=0是假定差值变量服 从正态分布时检验均值为零的t统计量值,相应的p值Pr>|T|为 0.0001在0.05水平下是显著的,所以可认为两科分数有显著 差异。M(Sign)是非参数检验符号检验的统计量,其p值 Pr>=|M|为0.0001在0.05水平下是显著的,结论不变。Sgn Rank是非参数检验符号秩检验的统计量,其p值Pr>=|S|为 0.0078在0.05水平下是显著的,结论不变。所以这三个检验 的结论都是两科成绩有显著差异。
proc npar1way data=sashelp.class wilcoxon; class sex; var weight; run;
The NPAR1WAY Procedure
Wilcoxon Scores (Rank Sums) for Variable Weight
Classified by Variable Sex
Z
-1.5132
One-Sided Pr < Z
0.0651
Two-Sided Pr > |Z| 0.1302
t Approximation
One-Sided Pr < Z
0.0738
Two-Sided Pr > |Z| 0.1476
Z includes a continuity correction of 0.5.
Sum of
Expected
Std Dev
Mean
Sex
NBaidu Nhomakorabea
Scores
Under H0
Under H0
Score
-----------------------------------------------------------------------------------------------------
例如,假设两方案的产量都服从正态分布,1号方案的单位 面积产量均值μ1,2号方案的单位面积产量均值μ2,原假设 H0:μ1=μ2 H1:μ1≠μ2
DATA TEM; SET DST.A; D=OUTPUT1-OUTPUT2; RUN; PROC UNIVARIATE DATA=TEM; VAR D; RUN;
如果t检验对立假设是单边的,其p值算法与上面讲的两样本t 检验p值算法相同。
案例:成对检验——使用分析员应用 数据集:PULS
回归分析
用SAS/INSIGHT进行曲线拟合
两个变量Y和X之间的相关关系经常可以用一个函数 来表示,一元函数可以等同于一条曲线,实际工作中 经常对两个变量拟合一条曲线来近似它们的相关关系。 最基本的“曲线”是直线,还可以用多项式、样条函 数、核估计和局部多项式估计。其模型可表示为
一些单变量检验问题
如果我们希望检验男、女生的体重,对特殊人群有时无法使 用两样本t检验,因为检验女生的体重样本的正态性发现它是 非正态。这种情况下我们可以使用非参数检验。检验两独立 样本的位置是否相同的非参数检验有Wilcoxon秩和检验。 我们用NPAR1WAY过程加Wilcoxon选项可以进行这种检验。 见下例:
一些单变量检验问题 Tests for Location: Mu0=0
Test
-Statistic- -----p Value------
Student's t t 19.1449 Pr > |t| <.0001
Sign
M
9.5 Pr >= |M| <.0001
Signed Rank S
95 Pr >= |S| <.0001
T-Tests
Variable Method
Variances
DF t Value Pr > |t|
Weight
Pooled
Equal
17
-1.93
0.0702
Weight
Satterthwaite Unequal
17
-1.95
0.0680
Equality of Variances
Variable Method
4.50000
Tests for Location: Mu0=0
Test
-Statistic- -----p Value------
Student's t t 7.617748 Pr > |t| 0.0001
Sign
M
4 Pr >= |M| 0.0078
Signed Rank S
18 Pr >= |S| 0.0078