SAS统计分析(第七讲)解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⑶ stepwise 逐步法,按照sle的α值依次选入变量,同时对模型中现
有的变量按sls的α值剔除不显著的变量。
⑷ adjrsq 选择最优模型的决定系数准则(R2)。 应选择R2最大的模
型。
⑸ cp 选择最优模型的Cp准则。应选择Cp值与(p+1)最接近的模型。 ⑹ aic 选择最优模型的aic准则。应选择aic值最小的模型。 注:[选项]中selection语句没有筛选变量的方法时,模型中含有全部自变
2019/2/18
3
四、分类变量的数量化
在实际研究中,自变量常常会是分类变量,主要包括三
种类型的分类变量:①两分类变量,如性别(男、女);② 有序分类变量,如病情(轻度、中度、重度);③无序分类 变量,如职业(干部、职员、工人、农民)。进行多元回归 分析,必须将这样的指标数量化,常用的数量化方法有:
Source
Model Error Corrected Total
职业
干部 职员 工人 农民
分类变量赋值 X2
0 1 0 0
X3 0 0 1 0
一般来说,m个类别的分类变量需要(m-1)个哑变量表示。
2019/2/18
5
五、SAS 语句格式 同单变量线性回归基本相同。 proc reg [选项]; model 应变量=自变量名列/ [选项];必选语句,定义回归分析模型 [freq 变量名];可选项,定义频数变量。 [output out=数据集名 统计量=变量名 …统计量=变量名 ];
共线性。
11. collinoint 与选择项collin作用相同,但不包括回归常数。 12. R 进行预测值的残差分析(即异常值识别与强影响分析),输出
学生化残差值和Cook’s距离D值。当学生化残差值>2时,所对应的点可能
是异常点,当D值>0.5时,可认为对应的变量值对回归函数是强影响点。
2019/2/18
2019/2/18 11
The REG Procedure Model: MODEL1 Dependent Variable: y Analysis of Variance Sum of Squares 133.71069 88.84117 222.55185 Mean Square 33.42767 4.03823
10
完全多元线性回归
例11-5 27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化 血红蛋白、空腹血糖的测定值列于表11-4中,试建立血糖与其他指标的多元 线性回归方程。
data ex11_5; infile 'e:\sasx\sas7\ex11_5.txt'; input x1-x4 y @@; proc reg; model y=x1-x4/stb; run;
量的回归模型。
2. sle=概率值 入选标准,规定变量入选模型的显著性水平,前进法
默认为0.5,逐步法默认为0.15。
3. sls=概率值
2019/2/18
剔除标准,指定变量保留在模型的显著性水平,后退
8
法默认为0.1,逐步法默认为0.15。
ˆ 、残差及其标准误。 4. P 输出实际值Yi 、预测值 Y i
SAS统计分析
第七讲 景学安
2019/2/18
Βιβλιοθήκη Baidu
1
一、 基本概念
多元线性回归
多元线性回归简称多元回归,是研究一个应变量与多个自 变量间线性依存关系数量变化规律的一种方法。
二、多元线性回归方程
ˆ b b X b X b X Y 0 1 1 2 2 m m
式中:b0为回归方程常数项,亦称为截距;bj ( j=1,2, ┅,
5. stb 输出各自变量的标准偏回归系数。
ˆ t S ˆ 值的95%容许区间上下限 Y 6. cli 输出 x对应 Y , Y i
ˆ 的均值 Yˆ 的95%可信区间上下限。 ˆ t Sˆ 7. clm 输出预测值 Y Y i , Y
8. tol 输出各自变量的容许值。0≤tol值≤1,越接近于0,共线性越严重。 9. vif
m )为偏回归系数,即在其他自变量固定的条件下,Xj改变一 个单位时应变量的改变量。
2019/2/18 2
三、多元线性回归方程的应用
ˆ 预测应变量的估计值 Y
探索影响应变量y的主要因素
ˆ t S ˆ 的容许区间 Y 当X为某一定值时,估计应变量 Y , Y i
ˆ 的总体均数 ˆ 的 当X为某一定值时,估计其应变量 Y i Y ˆ t Sˆ 置信区间 Y , Y
tol( x j ) 1 R 2 j 输出各自变量的方差膨胀因子。当 vif≥10时,可认为多元共线性
严重存在。
vif ( x j ) 1 / tol( x j )
2019/2/18
9
10. collin 要求详细分析自变量之间的共线性,给出信息矩阵的特征
根、条件指数和方差比,当条件指数≥10,方差比>0.5时,可认为存在多元
1.两分类变量 可用0和1表示。例如: 0为男,1为女;0为阴性,1为阳性。 2.有序分类变量 由于有序的分类变量的各类之间有一定 的数量关系,可以用0,1,2,3,┄表示。如0为轻度,1为 中度,2为重度。
2019/2/18 4
3.无序分类变量 由于各类别之间无数量关系,常用多个0, 1变量表示,即建立多个哑变量(dummy variable)。如 表 无序四分类变量用三个哑变量表示 X1 1 0 0 0
1. selection=method 规定变量筛选方法和建立最优模型的准则。
method的以下几种主要选项:
⑴ forward(或 f)前进法,按照sle规定的α值从无到有依次选
一个变量进入模型
⑵ backward(或 b)后退法,按照sls规定的α值从含有全部
变量的模型开始,以次剔除一个变量。
2019/2/18 7
可选项。Output语句创建一个包括对每个观察值计算统计量的
新输出的数据集。
2019/2/18
6
(一)proc reg 语句的[选项] 1. data=数据集 指明回归分析所用的数据集。 2. outest=数据集 指定一个输出数据集,用以存储回归分析所得
的参数估计 。
3.simple 输出每个变量的简单统计结果。 (二)model语句的/[选项]