多元线性回归分析-研(精)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x2
.
2
x3
.
3
x4
.
a. Dependent Variable: y
29
Coefficientsa Unstandardized Coefficients B Std. Error 12.546 .252 .063 .011 8.000 .804 .064 .008 .067 .011 8.202 .602 .048 .007 .060 .009 .029 .005 Standardized Coefficients Beta .676 .685 .509 .521 .457 .399
12
1.多元线性回归方程的假设检验: 方差分析法:SS总 = SS回 + SS残
H 0 : 1 2 H1 : i (i 1, 2,
m 0 , m)不全为0 bmlmY
SS回 b1l1Y b2l2Y SS残 SS总 SS回
SS回 / m MS回 F SS残 ( / n m 1 ) MS残
23
三、选择最优回归方程的方法
1.最优回归方程 : 1)对y的作用有统计学意义的自变量,全部
选入回归方程
2)对y的作用没有统计学意义的自变量,一 个也不引入回归方程
24
2.方法: 1)最优子集回归法:又称全局择优法,求出所 有可能的回归模型(共有2m-1个)选取最优 者 2)向后剔除法(backward selection)
14
2.偏回归系数的假设检验 方差分析法、t检验法 方差分析法:
SS ( X i ) / 1 F SS残 / 2
1 1 2 n-m-1
SS(Xi)为第i个自变量的偏回归平方和
15
偏回归平方和:SS(Xi),表示模型中含有其它m-1 个自变量的条件下该自变量对Y的回归贡献, 相当于从回归方程中剔除该自变量后回归平方
MODEL y=x1-x5;
RUN;
10
例15.1:P210 SPSS的分析结果
Coefficientsa Unstandardized Coefficients B Std. Error 8.429 .607 .126 .096 .044 .008 .057 .009 .032 .006 -.017 .013 Standardized Coefficients Beta .112 .476 .434 .431 -.105
1.根据样本数据求得模型参数的估计值,得到 应变量与自变量数量关系的表达式:
ˆ b0 b1 x1 b2 x2 ...... bm xm y
此公式称为多元线性回归方程
2.对回归方程及各自变量作假设检验,并对方 程的拟和效果及各自变量的作用大小作出评价
8
多元线性回归方程的建立:
利用最小二乘法原理估计模型的参数: (使残差平方和最小)
2
(mmol/L) ( U/ml) X2 1.90 1.64 3.56 1.20 X3 4.53 7.32 6.95 6.45
人的体重与身高、胸围有关
人的心率与年龄、体重、肺活量有关 人的血压值与年龄、性别、劳动强度、饮
食习惯、吸烟状况、家族史等有关
射频治疗仪定向治疗脑肿瘤过程中,脑皮
和的减少量,或者在m-1个自变量的基础上增
加一个自变量后回归平方和的增加量。
注意:m-1个自变量对y的回归平方和由m-1个
自变量对y重新建立回归方程后计算得到,而 不能简单的在整个方程的基础上把biliy去掉后 得到。
16
各偏回归平方和SS(Xi)及残差的计算 回归方程中包含的自 变量 X1 X2 X3 X4 X5 X2 X3 X4 X5 SS回 SS总 SS-1 SS(Xi) - SS总- SS-1
X1 X3 X4 X5 X1 X2 X4 X5
X1 X2 X3 X5
SS-2 SS-3
SS-4
SS总- SS-2 SS总- SS3
SS总- SS4
X1 X2 X3 X4
SS-5
SS总- SS5
17
2.偏回归系数的假设检验 t检验法:
bi ti sbi
n-m-1
18
SPSS的结果
Coefficientsa Unstandardized Coefficients B Std. Error 8.429 .607 .126 .096 .044 .008 .057 .009 .032 .006 -.017 .013 Standardized Coefficients Beta .112 .476 .434 .431 -.105
Model 1
(Constant) x1 x2 x3 x4 x5
t 13.893 1.305 5.693 6.491 5.048 -1.318
Sig . .000 .201 .000 .000 .000 .196
a. Dependent Variable: y
11
二、多元回归方程的假设检验
回归方程是否成立? 各偏回归系数是否等于0?
a. Dependent Variable: y
30
d Model Summary
Model 1 2 3
R .676a .846b .919c
R Sq uare .456 .716 .845
Adjusted R Sq uare .442 .700 .832
Std. Error of the Estimate .90018 .65967 .49326
Model 1
(Constant) x1 x2 x3 x4 x5
t 13.893 1.305 5.693 6.491 5.048 -1.318
Sig . .000 .201 .000 .000 .000 .196
a. Dependent Variable: y
19
3.标准化偏回归系数 对各数据进行标准化后求得的回归方程即标准 化回归方程,其相应的偏回归系数即标准化偏 回归系数。 标准化偏回归系数和偏回归系数的关系:
,则剔除Xi,同时再对Xj进行检验。若Xj依然
有意义则继续选择下一个偏回归平方和最大者
并进行检验。重复此过程。
26
逐步回归法
每引入或剔除一个自变量后都要重新对已进 入方程中的自变量进行检验,直到方程外没
有有意义的自变量可引入、方程内也没有无
意义的自变量可剔除为止 。
27
逐步回归法
双向筛选 ;引入一个有意义变量(前进法)
lii si b bi bi l yy sy
' i
在有统计学意义的前提下,标准化偏回归系数绝对值 的大小可直接进行比较,以衡量自变量对应变量的作 用大小
例:见P213
20
4.复相关系数
复相关系数:multiple correlation coefficient
衡量因变量y与回归方程内所有自变量线性组合 间相关关系的密切程度,也即Y与Y之间的相关 系数。R
R
2 adj
n 1 1 (1 R ) n m 1
2
22
b Model Summary
Model 1
R .928a
R Sq uare .861
Adjusted R Sq uare .840
Std. Error of the Estimate .48165
a. Predictors: (Constant), x 5, x3, x1, x2, x4 b. Dependent Variable: y
l11b1 l12b2 l1mbm l1Y
l21b1 l22 b2 l2 m bm l2Y lm1b1 lm2b2 lmm bm lmY
b0 Y (b1 X1 b2 X 2 bm X m)
9
方程的求解过程复杂,可借助于SPSS、SAS 等统计软件来完成 SPSS:Analyze→Regression→Linear regression→dependent:y independent:x1-x5 SAS程序:PROC REG DATA=mr15-1;
3)向前引入法(forward selection)
4)逐步回归法(stepwise regression)
25
逐步回归法
自变量回归平方和最大的Xi首先进入方程,在 Xi进入方程的基础上计算其余m-1个自变量分
别进入回归方程时的偏回归平方和,其中最大
者记为SSj,对Xj进行检验,若有意义则进入方
程,并重新对Xi进行检验。若Xi退化为无意义
表1 27名糖尿病人的血糖及有关变量的测量结果
总胆固醇 序号 (mmol/L) i X1 1 2 3 27 5.68 3.79 6.02 3.84 甘油三酯 胰岛素 糖化血红蛋白 (%) X4 8.2 6.9 10.8 9.6 血糖 (mmol/L) Y 11.2 8.8 12.3 10.4
多元线性回归模型的应用条件:
1.线性趋势:Y与Xi间具有线性关系
2.独立性:应变量Y的取值相互独立
3.正态性:对任意一组自变量取值,因变量Y 服从正态分布 4.方差齐性:对任意一组自变量取值,因变 量y的方差相同 后两个条件等价于:残差ε服从均数为0、 方差为σ2的正态分布
7
多元线性回归的分析步骤:
Model 1 2
3
(Constant) x2 (Constant) x2 x3 (Constant) x2 x3 x4
t 49.858 5.648 9.953 7.818 5.810 13.621 7.230 6.904 5.493
Sig . .000 .000 .000 .000 .000 .000 .000 .000 .000
质的毁损半径与辐射的温度、照射的时间
有关
…
3
多元线性回归:简称为多元回归,分析一
个应变量与多个自变量间的线性关系。
4
表2
例号 1 2 X1 X11 X21
多元回归分析数据格式
X2 X12 X22 Xm X1m X2m Y Y1 Y2
n
Xn1
Xn2
Xnm
Yn
13
ANOVAb Model 1 Sum of Squares 48.750 7.888 56.637 df 5 34 39 Mean Square 9.750 .232 F 42.028 Sig . .000a
Reg ression Residual Total
a. Predictors: (Constant), x5, x3, x1, x2, x4 b. Dependent Variable: y
其值在0与1之间
SS回 R R SS总
2
如果只有一个自变量,此时 R | r |
21
R2称为决定系数表明回归平方和在总平
方和中所占的比重。R2越接近于1,说明引入
方程的自变量与因变量的相关程度越高,Xi与
y的回归效果越好。 R2受自变量个数的影响,由此又提出校 正决定系数,既反映模型的拟和优度,又同时 考虑了模型中的自变量个数。
5
一、多元线性回归模型
一般形式为: Y=β0+β1X1 +β2X2 +…+βmXm +ε β0 :常数项,又称为截距
β1,β2,…,βm: 偏 回 归 系 数 (Partial regression coefficient) 简称回归系数,在 其它自变量保持不变时 Xi(i=1,2,…,m) 每改变 一个单位时,应变量Y的平均变化量 ε:去除m个自变量对Y的影响后的随机误差, 又称残差 6
的同时,剔除无意义的变量(后退法)
“先剔除后选入”原则 α入和α出可等可不等 注意,引入变量的检验水准要小于或等于 剔除变量的检验水准。
28
wk.baidu.com
Variables Entered/Removeda Model 1 Variables Entered Variables Removed Method Stepwise (Criteria: Probabilit y-ofF-to-enter <= .050, Probabilit y-ofF-to-remo ve >= . 100). Stepwise (Criteria: Probabilit y-ofF-to-enter <= .050, Probabilit y-ofF-to-remo ve >= . 100). Stepwise (Criteria: Probabilit y-ofF-to-enter <= .050, Probabilit y-ofF-to-remo ve >= . 100).