SAS统计分析(第七讲)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
34
data ex8_1; do food=1 to 3; do i=1 to 8; input x y @@; output; end; end; cards; 15 85 13 83 11 65 12 76 12 80 16 91 14 84 17 90 17 97 16 90 18 100 18 95 21 103 22 106 19 99 18 94 22 89 24 91 20 83 23 95 25 100 27 102 30 105 32 110 ; proc glm; class food; model y=food x/solution; lsmeans food/stderr pdiff; run;
自变量间的多重共线性(multicollinearity)
多重共线性是指在进行多元回归时,自变量间存在线性相关 关系。共线关系存在,可使估计系数方差加大,系数估计不稳 定,结果分析困难。出现以下现象提示可能存在自变量之间的 共线关系。
2016/8/27 14
整个回归方程的统计检验P<α,而各偏回归系数的检验均出 现P> α的矛盾现象。 偏回归系数的估计值明显与实际情况不符,或者是偏回归系 数的符号与专业知识的情况相反。据专业知识,该自变量与应 变量间关系密切,而偏回归系数检验结果P> α。
Source
Model Error Corrected Total
DF
4 22 26
F Value
8.28
Pr > F
0.0003
Root MSE Dependent Mean Coeff Var
2016/8/27
2.00954 11.92593 16.85015
R-Square Adj R-Sq
0.6008 0.5282
12
Parameter Estimates
Parameter Standard Variable Intercept x1 DF 1 1 Estimate 5.94327 0.14245 Error 2.82859 0.36565 t Value 2.10 0.39 Pr > |t| 0.0473 0.7006 Standardized Estimate 0 0.07758
1. selection=method 规定变量筛选方法和建立最优模型的准则。
method的以下几种主要选项:
⑴ forward(或 f)前进法,按照sle规定的α值从无到有依次选
一个变量进入模型
⑵ backward(或 b)后退法,按照sls规定的α值从含有全部
变量的模型开始,以次剔除一个变量。
2016/8/27 7
Class 分组变量;/*
指明分组变量, 必须放在model语句前 */
Model 应变量=分组变量 协变量/[选项];
Lsmeans 分组变量/[选项];
均数(修正均数)*/
/* 输出各组变量的最小二乘
run;
2016/8/27
32
model 语句常用的[选项] solution /* 输出回归方程中各参数的估计值 */
2016/8/27
3
四、分类变量的数量化
在实际研究中,自变量常常会是分类变量,主要包括三
种类型的分类变量:①两分类变量,如性别(男、女);② 有序分类变量,如病情(轻度、中度、重度);③无序分类 变量,如职业(干部、职员、工人、农民)。进行多元回归 分析,必须将这样的指标数量化,常用的数量化方法有:
5. stb 输出各自变量的标准偏回归系数。
ˆ t S ˆ 值的95%容许区间上下限 Y 6. cli 输出 x对应 Y , Y i
ˆ 的均值 Yˆ 的95%可信区间上下限。 ˆ t Sˆ 7. clm 输出预测值 Y Y i , Y
8. tol 输出各自变量的容许值。0≤tol值≤1,越接近于0,共线性越严重。 9. vif
tol( x j ) 1 R 2 j 输出各自变量的方差膨胀因子。当 vif≥10时,可认为多元共线性
严重存在。
vif ( x j ) 1 / tol( x j )
2016/8/27
9
10. collin 要求详细分析自变量之间的共线性,给出信息矩阵的特征
根、条件指数和方差比,当条件指数≥10,方差比>0.5时,可认为存在多元
10
完全多元线性回归
例11-5 27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化 血红蛋白、空腹血糖的测定值列于表11-4中,试建立血糖与其他指标的多元 线性回归方程。
data ex11_5; infile 'e:\sasx\sas7\ex11_5.txt'; input x1-x4 y @@; proc reg; model y=x1-x4/stb; run;
1.两分类变量 可用0和1表示。例如: 0为男,1为女;0为阴性,1为阳性。 2.有序分类变量 由于有序的分类变量的各类之间有一定 的数量关系,可以用0,1,2,3,┄表示。如0为轻度,1为 中度,2为重度。
2016/8/27 4
3.无序分类变量 由于各类别之间无数量关系,常用多个0, 1变量表示,即建立多个哑变量(dummy variable)。如 表 无序四分类变量用三个哑变量表示 X1 1 0 0 0
可选项。Output语句创建一个包括对每个观察值计算统计量的
新输出的数据集。
2016/8/27
6
(一)proc reg 语句的[选项] 1. data=数据集 指明回归分析所用的数据集。 2. outest=数据集 指定一个输出数据集,用以存储回归分析所得
的参数估计 。
3.simple 输出每个变量的简单统计结果。 (二)model语句的/[选项]
2016/8/27 11
The REG Procedure Model: MODEL1 Dependent Variable: y Analysis of Variance Sum of Squares 133.71069 88.84117 222.55185 Mean Square 33.42767 4.03823
model y=x1-x4/selection=stepwise sle=0.15 sls=0.15
stb; run;
2016/8/27 16
2016/8/27
17
2016/8/27
18
2016/8/27
19
2016/8/27
20
2016/8/27
21
2016/8/27
22
2016/8/27
SAS统计分析
第七讲 景学安
2016/8/27
1
一、 基本概念
多元线性回归
多元线性回归简称多元回归,是研究一个应变量与多个自 变量间线性依存关系数量变化规律的一种方法。
二、多元线性回归方程
ˆ b b X b X b X Y 0 1 1 2 2 m m
式中:b0为回归方程常数项,亦称为截距;bj ( j=1,2, ┅,
量的回归模型。
2. sle=概率值 入选标准,规定变量入选模型的显著性水平,前进法
默认为0.5,逐步法默认为0.15。
3. sls=概率值
2016/8/27
剔除标准,指定变量保留在模型的显著性水平,后退
8
法默认为0.1,逐步法默认为0.15。
ˆ 、残差及其标准误。 4. P 输出实际值Yi 、预测值 Y i
15
例11-6 data ex11_6;
infile 'e:\sasx\sas7\ex11_5.txt';
input x1-x4 y @@; proc reg; model y=x1-x4/stb selection=cp aic adjrsq; model y=x1-x4/tol vif collin collinoint R;
23
2016/8/27
24
2016/8/27
25
2016/8/27
26
2016/8/27
27
2016/8/27
28
第八章 协方差分析
概念 协方差分析(analysis of covariance)是把线性回归与方差 分析结合起来,检验两个或多个修正均数间有无差别的方法。 如研究不同的饲料对动物体重的增长情况,但每只动物的进食
修正均数间比较的F值
F
MS 修正均数 MS 组内剩余
如修正均数间有差别,必要 时再作两两比较。
公共回归系数 bc
bc
组内(或误差)的l xy 组内(或误差)的l xx
各修正均数的计算
Yi Yi bc ( X i X )
'
31
2016/8/27
SAS常用语句格式 Proc glm [data=<数据集名>];
x2
x3 x4
1
1 1
0.35147
-0.27059 0.63820
0.20420
0.12139 0.24326
1.72
-2.23 2.62
0.0993
0.0363 0.0155
0.30931
-0.33948 0.39774
2016/8/27
13
逐步回归
简介 逐步回归是筛选自变量的常用的方法之一。筛选自 变量的方法还有前进法,后退法和最优回归子集法。逐步回归 法是依据事先给定的两个显著性水平SLE和SLS,将自变量逐 个引入方程,同时每引入一个新变量后,对已选入的变量要进 行逐个检验,将不显著的变量剔除,这样保证最后所得的变量 都有显著性。
量是不同的,对体重的增长是有影响的,进食量即为混杂因素,
亦称为协变量。协方差分析检验的意义是:用直线回归的方法 找出食量(协变量x)与所增体重(应变量y)的线性关系,求得当 食量化为相等时(即扣除食量的影响),各饲料组动物所增体 重的修正均数,然后用方差分析检验各修正均数间的差别。
2016/8/27 29
表8-3 三种饲料喂养猪的进食量与增重(kg)
A饲料 X1 1 2 ┆ 7 8 15 13 ┆ 14 17 Y1 85 83 ┆ 84 90 X2 17 16 ┆ 19 18 B饲料 Y2 97 90 ┆ 99 94 X3 22 24 ┆ 30 32 C饲料 Y3 89 91 ┆ 105 110
2016/8/27
增加(或删除)一个变量,或者改变(或去除)一个观察值, 引起回归系数估计值发生大的变化。
多重共线性是引起上述问题的重要原因。
解决多重共线性的办法 找出存在共线性且不重要的那些自变量,剔除出方程,另行 回归分析。 用主成分回归或岭回归等有偏估计替代最小二乘估计。
2016/8/27
用逐步回归等方法筛选自变量。
⑶ stepwise 逐步法,按照sle的α值依次选入变量,同时对模型中现
有的变量按sls的α值剔除不显著的变量。
⑷ adjrsq 选择最优模型的决定系数准则(R2)。 应选择R2最大的模
型。
⑸ cp 选择最优模型的Cp准则。应选择Cp值与(p+1)最接近的模型。 ⑹ aic 选择最优模型的aic准则。应选择aic值最小的模型。 注:[选项]中selection语句没有筛选变量的方法时,模型中含有全部自变
职业
干部 职员 工人 农民
分类变量赋值 X2
0 1 0 0
X3 0 0 1 0
一般来说,m个类别的分类变量需要(m-1)个哑变量表示。
2016/8/27
5
五、SAS 语句格式 同单变量线性回归基本相同。 proc reg [选项]; model 应变量=自变量名列/ [选项];必选语句,定义回归分析模型 [freq 变量名];可选项,定义频数变量。 [output out=数据集名 统计量=变量名 …统计量=变量名 ];
lsmeans 语句常用的[选项] stderr /* 输出修正均数的标准误 */
pdiff /* 输出修正均数间两两比较的概率值 */
2016/8/27
Baidu Nhomakorabea
33
一、完全随机设计资料的协方差分析
例8-1 为研究A、B、C三种饲料喂养8头猪一段时间,测得
每头猪的初始重量(X)和增重(Y),数据见表8-3。试分析三 种饲料对猪的催肥效果是否不同?
m )为偏回归系数,即在其他自变量固定的条件下,Xj改变一 个单位时应变量的改变量。
2016/8/27 2
三、多元线性回归方程的应用
ˆ 预测应变量的估计值 Y
探索影响应变量y的主要因素
ˆ t S ˆ 的容许区间 Y 当X为某一定值时,估计应变量 Y , Y i
ˆ 的总体均数 ˆ 的 当X为某一定值时,估计其应变量 Y i Y ˆ t Sˆ 置信区间 Y , Y
共线性。
11. collinoint 与选择项collin作用相同,但不包括回归常数。 12. R 进行预测值的残差分析(即异常值识别与强影响分析),输出
学生化残差值和Cook’s距离D值。当学生化残差值>2时,所对应的点可能
是异常点,当D值>0.5时,可认为对应的变量值对回归函数是强影响点。
2016/8/27
协方差分析的应用条件
1. 各处理组资料(x,y)来自正态总体分布,且总体方差
相等。 2. 各处理组的总体直线回归系数βi 相等(回归线平行), 且都不为0。 3.协变量是定量变量,且与处理因素不存在交互作用。 4.各处理组的协变量均数差别不能太大。
2016/8/27
30
协方差分析常用公式