多元线性回归分析-研

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

12
1.多元线性回归方程的假设检验: 1.多元线性回归方程的假设检验: 多元线性回归方程的假设检验 方差分析法:SS总 = SS回 + SS残 SS
H 0 : β1 = β 2 = L = β m = 0 H1 : β i (i = 1, 2,L , m)不全为0 SS回 = b1l1Y + b2l2Y + L + bmlmY SS残 = SS总 − SS回 SS回 / m MS回 F= = / SS残 (n − m − 1 MS残 )
Model 1
(Constant) x1 x2 x3 x4 x5
t 13.893 1.305 5.693 6.491 5.048 -1.318
Sig. .000 .201 .000 .000 .000 .196
a. Dependent Variable: y
19
3.标准化偏回归系数 3.标准化偏回归系数 对各数据进行标准化后求得的回归方程即标准 化回归方程, 化回归方程,其相应的偏回归系数即标准化偏 回归系数。 回归系数。 标准化偏回归系数和偏回归系数的关系: 标准化偏回归系数和偏回归系数的关系:
l 21b1 + l 22 b2 + L + l 2 m bm = l 2 Y LL l m1b1 + l m 2 b2 + L + l mm bm = l mY
b0 = Y − b1 X 1 + b2 X 2 + L + bm X m) (
9
方程的求解过程复杂,可借助于SPSS、SAS 等统计软件来完成 SPSS:Analyze→Regression→Linear regression→dependent:y independent:x1-x5 SAS程序:PROC REG DATA=mr15-1; MODEL y=x1-x5; RUN;
R= R =
2
SS回 SS总
21
如果只有一个自变量,此时 R= r | |
R2称为决定系数表明回归平方和在总平 称为决定系数 决定系数表明回归平方和在总平 方和中所占的比重。 越接近于1, 方和中所占的比重。R2越接近于 ,说明引入 方程的自变量与因变量的相关程度越高, 方程的自变量与因变量的相关程度越高,Xi与 y的回归效果越好。 的回归效果越好。 的回归效果越好 R2受自变量个数的影响,由此又提出校 受自变量个数的影响,由此又提出校 正决定系数,既反映模型的拟和优度,又同时 正决定系数,既反映模型的拟和优度, 考虑了模型中的自变量个数。 考虑了模型中的自变量个数。
27名糖尿病人的血糖及有关变量的测量结果 表1 27名糖尿病人的血糖及有关变量的测量结果
总胆固醇 序号 (mmol/L) i X1 1 2 3
M
甘油三酯
胰岛素
糖化血红蛋白 (%) X4 8.2 6.9 10.8
M
血糖 (mmol/L) Y 11.2 8.8 12.3
M
(mmol/L) (µ U/ml) X2 1.90 1.64 3.56
10
例15.1:P210 : SPSS的分析结果 的分析结果
Coefficientsa Unstandardized Coefficients B Std. Error 8.429 .607 .126 .096 .044 .008 .057 .009 .032 .006 -.017 .013 Standardized Coefficients Beta .112 .476 .434 .431 -.105
23
三、选择最优回归方程的方法
1.最优回归方程 1.最优回归方程 : 1)对y的作用有统计学意义的自变量,全部 选入回归方程 2)对y的作用没有统计学意义的自变量,一 个也不引入回归方程
24
2.方法: 2.方法: 方法 1)最优子集回归法:又称全局择优法,求出所 全局择优法, 全局择优法 有可能的回归模型(共有2m-1个)选取最优 者 2)向后剔除法(backward selection) 3)向前引入法(forward selection) 4)逐步回归法(stepwise regression)
26
逐步回归法
每引入或剔除一个自变量后都要重新对已进 引入或剔除一个自变量后都要重新对已进 重新 入方程中的自变量进行检验, 入方程中的自变量进行检验,直到方程外没 有有意义的自变量可引入、 有有意义的自变量可引入、方程内也没有无 意义的自变量可剔除为止 。
17
2.偏回归系数的假设检验 2.偏回归系数的假设检验 t检验法:
bi ti = sbi
υ = n-m-1
18
SPSS的结果 的结果
Coefficientsa Unstandardized Coefficients B Std. Error 8.429 .607 .126 .096 .044 .008 .057 .009 .032 .006 -.017 .013 Standardized Coefficients Beta .112 .476 .434 .431 -.105
25
逐步回归法
自变量回归平方和最大的X 首先进入方程, 自变量回归平方和最大的Xi首先进入方程,在 进入方程的基础上计算其余m Xi进入方程的基础上计算其余m-1个自变量分 别进入回归方程时的偏回归平方和, 别进入回归方程时的偏回归平方和,其中最大 者记为SSj,对Xj进行检验,若有意义则进入方 进行检验, 者记为SS 程,并重新对Xi进行检验。若Xi退化为无意义 并重新对X 进行检验。 ,则剔除Xi,同时再对Xj进行检验。若Xj依然 则剔除X 同时再对X 进行检验。 有意义则继续选择下一个偏回归平方和最大者 并进行检验。重复此过程。 并进行检验。重复此过程。
13
ANOVAb Model 1 Sum of Squares 48.750 7.888 56.637 df 5 34 39 Mean Square 9.750 .232 F 42.028 Sig. .000a
Regression Residual Total
a. Predictors: (Constant), x5, x3, x1, x2, x4 b. Dependent Variable: y
14
2.偏回归系数的假设检验 2.偏回归系数的假设检验 方差分析法、t检验法 方差分析法:
SS ( X i ) / υ1 F= SS残 / υ2
υ1 = 1 υ2 = n-m-1
SS(Xi)为第i个自变量的偏回归平方和 为第i
15
偏回归平方和:SS(X ),表示模型中含有其它 表示模型中含有其它m 偏回归平方和:SS(Xi),表示模型中含有其它m-1 个自变量的条件下该自变量对Y的回归贡献, 个自变量的条件下该自变量对Y的回归贡献, 相当于从回归方程中剔除该自变量后回归平方 和的减少量,或者在m 和的减少量,或者在m-1个自变量的基础上增 加一个自变量后回归平方和的增加量。 加一个自变量后回归平方和的增加量。 注意: 注意:m-1个自变量对y的回归平方和由m-1个 个自变量对y的回归平方和由m 自变量对y重新建立回归方程后计算得到, 自变量对y重新建立回归方程后计算得到,而 不能简单的在整个方程的基础上把b 不能简单的在整个方程的基础上把biliy去掉后 得到。 得到。
lii si b = bi = bi l yy sy
' i
在有统计学意义的前提下,标准化偏回归系数绝对值 在有统计学意义的前提下, 的大小可直接进行比较,以衡量自变量对应变量的作 的大小可直接进行比较, 用大小
例:见P213
20
4.复相关系数 4.复相关系数 复相关系数:multiple correlation coefficient 衡量因变量y与回归方程内所有自变量线性组合 ∧ 间相关关系的密切程度,也即Y与Y之间的相关 系数。R 其值在0与1之间
7
多元线性回归的分析步骤: 多元线性回归的分析步骤:
1.根据样本数据求得模型参数的估计值,得到 根据样本数据求得模型参数的估计值, 根据样本数据求得模型参数的估计值 应变量与自变量数量关系的表达式: 应变量与自变量数量关系的表达式:
ˆ y = b0 + b1 x1 + b2 x2 + ......Байду номын сангаас bm xm
3
多元线性回归:简称为多元回归, 多元线性回归:简称为多元回归,分析一 个应变量与多个自变量间的线性关系。 个应变量与多个自变量间的线性关系。
4
表2
例号 1 2 M n X1 X11 X21 M Xn1
多元回归分析数据格式
X2 X12 X22 M Xn2 L L L M L Xm X1m X2m M Xnm Y Y1 Y2 M Yn
M
X3 4.53 7.32 6.95
M
5.68 3.79 6.02
M
27
3.84
1.20
6.45
9.6
10.4
2
人的体重与身高、 人的体重与身高、胸围有关 人的心率与年龄、体重、 人的心率与年龄、体重、肺活量有关 人的血压值与年龄、性别、劳动强度、 人的血压值与年龄、性别、劳动强度、饮 食习惯、吸烟状况、 食习惯、吸烟状况、家族史等有关 射频治疗仪定向治疗脑肿瘤过程中, 射频治疗仪定向治疗脑肿瘤过程中,脑皮 质的毁损半径与辐射的温度、 质的毁损半径与辐射的温度、照射的时间 有关 …
多元线性回归模型的应用条件: 多元线性回归模型的应用条件:
1.线性趋势:Y与Xi间具有线性关系 2.独立性:应变量Y的取值相互独立 3.正态性:对任意一组自变量取值,因变量Y 服从正态分布 4.方差齐性:对任意一组自变量取值,因变 量y的方差相同 后两个条件等价于:残差ε服从均数为0 后两个条件等价于:残差ε服从均数为0、 方差为σ 方差为σ2的正态分布
此公式称为多元线性回归方程
2.对回归方程及各自变量作假设检验,并对方 对回归方程及各自变量作假设检验, 对回归方程及各自变量作假设检验 程的拟和效果及各自变量的作用大小作出评价
8
多元线性回归方程的建立: 多元线性回归方程的建立:
利用最小二乘法原理估计模型的参数: (使残差平方和最小)
l11 b1 + l12 b2 + L + l1 m bm = l1Y
R
2 adj
n −1 = 1 − (1 − R ) n − m −1
2
22
Model Summaryb Model 1 R .928a R Square .861 Adjusted R Square .840 Std. Error of the Estimate .48165
a. Predictors: (Constant), x5, x3, x1, x2, x4 b. Dependent Variable: y
16
各偏回归平方和SS( 各偏回归平方和 (Xi)及残差的计算 回归方程中包含的自 变量 X1 X2 X3 X4 X5 X2 X3 X4 X5 X1 X3 X4 X5 X1 X2 X4 X5 X1 X2 X3 X5 X1 X2 X3 X4 SS回 SS总 SS-1 SS-2 SS-3 SS-4 SS-5 SS(Xi) SS( - SS总- SS-1 SS总- SS-2 SS总- SS3 SS总- SS4 SS总- SS5
5
一、多元线性回归模型
一般形式为: Y=β0+β1X1 +β2X2 +…+βmXm +ε + 常数项,又称为截距 β0 :常数项,又称为截距 β1,β2,…,βm: 偏 回 归 系 数 (Partial ,β coefficient)简称回归系数 简称回归系数, regression coefficient) 简称回归系数 , 在 其它自变量保持不变时X (i=1 ,m)每改变 其它自变量保持不变时 Xi(i=1,2,…,m)每改变 ,m) 一个单位时,应变量Y 一个单位时,应变量Y的平均变化量 ε:去除m个自变量对Y的影响后的随机误差, 去除m个自变量对Y的影响后的随机误差, 又称残差 6
Model 1
(Constant) x1 x2 x3 x4 x5
t 13.893 1.305 5.693 6.491 5.048 -1.318
Sig. .000 .201 .000 .000 .000 .196
a. Dependent Variable: y
11
二、多元回归方程的假设检验
回归方程是否成立? 回归方程是否成立? 各偏回归系数是否等于0 各偏回归系数是否等于0?
相关文档
最新文档