第十二讲多重线性回归
第12章-多重线性回归分析
6 因变量总变异的分解
P
(X,Y)
Y
(Y Y) (Y Y)
(Y Y)
Y X
Y
Y
9
Y的总变异分解
Y Y Yˆ Y Y Yˆ
Y Y 2 Yˆ Y 2 Y Yˆ 2
总变异 SS总
回归平方和 剩余平方和
SS回
SS剩
10
Y的总变异分解
病程 (X2)
10.0 3.0 15.0 3.0 4.0 6.0 2.9 9.0 5.0 2.0 8.0 20.0
表 12-1 脂联素水平与相关因素的测量数据
空腹
回归模空型腹 ?
瘦素
脂联 BMI 病程 瘦素
脂联
(X3)
血糖 (X4)
素(Y)
(X1)
(X2)
(X3)
血糖 素(Y) (X4)
5.75 13.6 29.36 21.11 9.0 4.90 6.0 17.28
H 0: 1 2 3 4 0 ,即总体中各偏回归系数均为0; H 1:总体中各偏回归系数不为0或不全为0;
= 0.05。
2 计算检验统计量: 3 确定P值,作出推断结论。
拒绝H0,说明从整体上而言,用这四个自变量构成 的回归方程解释糖尿病患者体内脂联素的变化是有统 计学意义的。
的平方和 (Y Yˆ)2为最小。
只有一个自变量
两个自变量
例12-1 为了研究有关糖尿病患者体内脂联素水平的影响因 素,某医师测定30例患者的BMI、病程、瘦素、空腹血糖, 数据如表12-1所示。
BMI (X1)
24.22 24.22 19.03 23.39 19.49 24.38 19.03 21.11 23.32 24.34 23.82 22.86
多重线性回归
多重回归与相关(Multiple regression and correlation)一、基本概念:由于大自然是复杂的,其中的现象大部分不是一对一的关系,不能用线性回归与相关来解决问题。
如:人的体重与身高有关,也与胸围有关;血压值的大小除了与年龄有关外,还受到性别、劳动强度、饮食习惯、吸烟状况、家族史等因素的影响。
多重回归与多重相关是研究一个因变量和多个自变量之间线性关系的统计学分析方法。
1. 多个自变量与一个因变量的数量关系多重回归2. 多个自变量与多个因变量的数量关系多元回归3. 多个变量与一个变量的相关关系多重相关4. 多个变量与多个变量的相关关系典则相关5. 扣除其它变量影响后一变量与另一变量的相关关系 偏相关 本章仅讨论多重线性回归、多重线性相关和偏相关。
二、多重线性回归模型与参数估计:(一) 多重线性回归模型:设观察了n 个对象,每个对象观察了因变量Y 和p 个自变量, 模型表达式:p p p x x x Y X X X ββββμ++++= 22110,...,2,1|样本回归方程: p p X b X b X b a Y++++= 2211ˆβ0(a)为截距,β1,β2,…,βp (b 1,b 2,…,b p )为偏(部分)回归系数,βi (b i )表示除X i 外的其他自变量固定时,X i 改变一个单位后Y 的平均变化。
标准回归系数:偏回归系数因各自变量值的单位不同不能直接比较其大小,对变量值作标准化变换,得到的回归系数为标准回归系数,可直接比较其大小,反映各自变量对因变量的贡献大小。
(二) 参数估计的方法: 最小二乘原则∑=∑=++++-=-=n i p p i n i i )]X b ...X b X b b (Y [)Y Y (Q 122211012 最小。
对方程中的每个待估参数求导并设导数为零,得到一组线性方程组。
由于是线性方程组,可以直接求解。
具体的计算复杂,手工计算几乎不可能,一般需要计算机软件完成。
多重线性回归
(2)有序多分类
• 按照有序的顺序,从低到高(或从 小到大)依次赋值:0,1,2,…。
• 如:家庭月收入情况(元):<50, 50-,500-,2000,≥10000分为5个等级, 可依次赋值为:0,1,2,3,4。
(3)无序多分类
• 如:若设W代表血型变量,则W的状态就有 4种情况,即W=A型、W=B型、W=AB型、 W=O型。此时需引入3个哑变量。现假设以O 型为基准,则3个哑变量X1、X2、X3可按如下 方式来定义:
Rc2
1 (1
R2)
(n
n 1 1)
p
1 SS残 /(n 1 p) =1- MS残
SS总 /(n 1)
MS总
R
2 c
R
2,考虑了自变
量个
数的
影响
Coe fficientsa
Standardi
偏系U回 数nCso归teafnfdica标ierdnizt准sed误
标准zed化偏 回Co归eftfsi系cien数
• 优点:
– 1次能引入多个自变量,若两个变量在一起时效果好 容易被选中。
• 缺点:
– 只出不进。
逐步回归法(stepwise)
• 将前进和后退两种方法结合起来,既考虑引入变 量又考虑剔除变量。
a. Predictors: (Constant), X3, X2, X1
b. Dependent Variable: Y
F
Sig.
5.617
.035a
决定系数 ( determination coefficient)
R2 SS回 1 SS残
SS总
SS总
说明所有自变量能解释Y变化的百分比。 取值(0,1),越接近1模型拟合越好
多重线性回归课件
BX'X1X'Y
多重线性回归课件
2005年11月
SAS软件输出结果
Parameter Estimates
Parameter Standard
Standardized
Variable DF Estimate
Error t Value Pr > |t| Estimate
Intercept 28 42.78878 9.88159 4.33 0.0002
0
tj bj Sbj bj (SY|12...p Cj ), np1;
1
Cj
ljj
(1R2j|1,2,...,
j1,
) j1,...,p
R2 j|1,2,...,
j1,
j1,...,p为Xj与其余自变量间的决定系数
多重线性回归课件
x2x3 x1x3 x4 x1 x1x2 x3 x2
ADJRSQ 0.40748 0.37522 0.34653 0.28443 0.27478 0.23063 0.17864
CP AIC 3 46.66 3 48.091 2 48.405 2 50.857 3 52.116 2 52.814 2 54.579
多重线性回归课件
2005年11月
F j SS SS 残 回 ( nS S回 p( j1 ));11;2np1
Full Model
多重线性回归课件
Reduced Model
2005年11月
实例计算
用表 15-1 数据计算偏回归平方和,并进行 F 检验
平方和
方程的自变量 方程 SS 回 SS 回-SS 回-j
多重线性回归
ˆi ; (1) 由自变量解释的部分,即 yi 的估计值 y
(2) 不能由自变量解释的部分,即残差 ei
回归方程的各部分也可用矩阵表示为:
y1 y2 Y yn n1
b0 b1 B= bm m 11
i
述。
因此,以 x1.x2 x p 中的一个自变量(记为 xk )为应 变量,以其它 x i k 为自变量建立回归方程,考察其
i
决定系数 Rk , 若 Rk 较大, 说明 xk 与其它自变量间存在
2 2
近似的线性关系。
方差膨胀因子--VIF多重共线性严重程度的指标。
2 bk 的 回归系数 bk 的方差与 1 Rk2 有关。Rk 越大,
回归的贡献,回归平方和: U l yy Q (Y Y )2 (sum of squares due to regression)
Y的总变异分解为两部分:
• 回归贡献U
• 剩余变异Q
整个方程是否有意义,就看回归所能解释的变 异U比剩余Q大多少而定。
假设检验为:
H 0 :各总体偏回归系数βj均为0;
R2可用于检验多重回归方程的统计学意义:
H0:2=0; H1:20。
检验统计量为:
R2 n m 1 F ~ F( m ,n m 1) 2 1 R m
复相关系数: R 反映的是应变量与自变量线性组合 的总的相关关系,其性质: 0≤R≤1。
当只有一个因变量y与一个自变量x时,R就等于y与 x的简单相关系数之绝对值:R= | ryx |
估计值与残差
编号 1 3 y 1.75 2.75
多重线性回归的主要原理
多重线性回归的主要原理多重线性回归是一种统计分析方法,用于研究多个自变量与一个因变量之间的关系。
该方法基于最小二乘法,在给定一组自变量的情况下,通过建立一个线性模型来估计因变量的值。
在多重线性回归中,变量可以分为两类:因变量和自变量。
因变量是我们希望预测或者解释的变量,而自变量是用来解释因变量的变量。
多重线性回归可以用以下方程表示:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量的值,X1、X2、...、Xn是自变量的值,β0、β1、β2、...、βn是对应的回归系数,ε是误差项。
回归系数表示自变量对因变量的影响程度,误差项表示模型无法解释的部分。
多重线性回归的主要原理是基于最小二乘法来求解回归系数。
最小二乘法的目标是最小化残差平方和,即找到一组回归系数,使得模型预测值与实际观测值之间的差异最小化。
具体而言,多重线性回归的求解过程可以分为以下几步:1. 数据准备:收集自变量和因变量的数据,并进行数据清洗和预处理,包括处理缺失值、异常值和离群值等。
2. 模型建立:根据问题背景和数据特点,确定多重线性回归模型的自变量和因变量,并设置回归方程。
3. 参数估计:使用最小二乘法对回归系数进行估计。
最小二乘法通过最小化实际观测值和模型预测值之间的残差平方和来确定回归系数。
具体计算方法是通过求解方程组来获取回归系数的值。
4. 模型拟合:将估计得到的回归系数代入回归方程,得到多重线性回归模型。
模型能够通过给定自变量值来预测因变量的值。
5. 模型评估:对多重线性回归模型进行评估,包括评价模型的拟合程度和回归系数的显著性等。
常用的指标有R方值、调整R方值和显著性检验等。
6. 模型应用:使用经过验证和评估的多重线性回归模型进行预测、推断和解释。
可以通过改变自变量的值来预测因变量的变化,并对因变量的影响进行解释。
多重线性回归有几个重要的假设前提需要满足。
首先,自变量和因变量之间应该存在线性关系。
十二、多重线性回归模型解读
•
•
n = 样本含量(观察数)
R2 = 未校正的R2
校正R2
• 校正R2是近似无偏的
• 校正R2的优点:
•
只有新引入的自变量对回归方程有贡献时,新的校正R2值才会较原来的
校正R2值增大
•
如新引入的自变量对y不起作用,校正R2值不增加
• 当n >> k时,R2 ≈ 校正R2。
多变量线性回归方程的评价(续)
获得满意结果。
“最优回归模型”
• 所谓“最优回归模型”是指:
• (1)全模型及其各参数估计值均有统计学显著性意义
• (2)如效果相似,模型所包含的变量数越少越好 • (3)各个变量在专业上都有实际意义
变量选择的常用方法
• 逐步回归(stepwise regression) • 在供选的多个自变量xi中,按其对y的作用大小(即偏回归平方和的大小), 由大到小将自变量逐个引入方程 • 每引入一个自变量,对其作显著性检验,如有显著性才可将其列入方程 • 每引入一个新自变量,再对原方程中的各自变量重新作显著性检验,将退 变为无显著性作用的自变量剔除出方程
•
ν= 自由度
• 算得F值后,查F值表即可知P值
直线回归方程的评价(续)
• t检验 • b b • t = ── = ───────────,ν= n-2 • sb √[Σ(yi-y)2 /(n-2)]
• 上式 b = 回归系数 • • • sb = 回归系数b的标准误 用于衡量y的估计值yi的精确性 可用于估计b的可信区间
• (j = 0,1,2,3……k)
• (i = 观察对象序号)
• 上式 y = 因变量(连续变量)
• b0 = 常数项,其含义同简单直线回归中的a
多重线性回归
R 2 1 [(
in1Uˆi2 /(n k )
n i1
(Yi
Yn )2 ] /(n
1)
R2
k 1 nk
(1
R2 ).
調整的判定係數是模型配適能力與模型複雜度折衷後的
結果,其值不一定隨解釋變數的增加而遞增。
多元迴歸模型的古典條件
為了推導最小平方估計式的性質,考慮以下的古典條件:
的變動幅度。 在控制其他變數可能產生的影響之後,斜率係數代表了該 解釋變數的「淨」效果。因此,解釋變數有時亦被稱作控 制變數。
標準方程式的代數性質
由標準方程式,可得到代數性質:
n
n
n
Uˆi 0; X 2iUˆi 0;;
X kiUˆi 0.
i 1
i 1
i 1
n
n
n
n
YˆiUˆi ˆ1n Uˆi ˆ2n X 2iUˆi ˆkn X kiUˆi 0.
N
(0,
2 0
)
條件 [D2](ii) 中 σ02 的最小平方估計式為
ˆ
2 n
1 nk
n
Uˆ
2 i
.
i 1
最小平方法估計式的性質
在 [D1] 與 [D2](i) 之下,最小平方估計式是真實參數的 線性且不偏的估計式。
(高斯—馬可夫): 在 [D1] 與 [D2]之下,最小平方法估 計式是真實參數的最佳線性不偏估計式。
1 n
n
(Yi
i 1
1 Байду номын сангаас X 2i
k X ki)2.
最小平方法
分別對 k 個參數作偏微分,我們可以得到 k 個線性標準方 程式。若方程式間沒有線性相依的關係,就可以得到 k 個
12多重线性回归分析(研)
AIC越小越好
(二)逐步选择法
1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)
➢ 向前引入法:由一个自变量开始,每次引入一个 有统计学意义的自变量,由少到多,直到无自变 量可以引入为止。此法建立的方程有时不够精炼
➢ 逐步筛选法:取上述两种方法的优点,引入和剔 除交替进行,直到无变量可以引入,同时也无自 变量可以剔除为止。目前比较常用
SPSS操作
Analyze→Regression→Linear Dependent :Y Independent(s):X1、X2、X3 Method:Stepwise OK
(一)回归方程的方差分析
H0:所有回归系数为0 H1:至少有一个回归系数不为0
ANO VbA
Mo d el
Su m o f Squ ares d f Mean Squ are F
1
Reg re2ss6i6o4n4 8 4 .4 9 4
838 8 16 1 .49 8 1 9 .0 2 6
Resid u a7l4 6 89 0 .50 6
X2
3 8. 55 0
1 3. 34 6
.444 2.889
X3
104.585
7 4. 36 1
.260 1.406
a. Dep en den t Variab le: Y
多重线性回归
多重线性回归的假设检验
对回归方程检验H0:β1=β2=…βm=0 对各偏回归系数检验H1:βi=0
1.多元线性回归方程的假设检验: 检验应变量y与k个自变量之间是否存在线 性回归关系,用方差分析
MSR
SSR / k
R2 /k
F
MSE SSE /(n k 1) (1 R2 ) /(n k 1)
R SSR SST
多重线性回归的假设检验
2.偏回归系数的假设检验: t检验
计算一个包含m个自变量的多元线性回归 方程,再用t检验法对各偏回归系数进行 假设检验。
tbi
bi S bi
自变量量化
(1)二分类定性指标:可取0, 1或1, 2。
(2)多分类的定性指标: Dummy Variable,(类别 数-1)两分类变量。如血型:
前进法 (Forward):根据 统计学意义,自变 量一一进入回归 方程 加权最小二乘回 归
分类
曲线回归: 如Logistic回归, Cox回归等
多重线性回归(1对多:Y/ X1,X2,…
Xm)
后退法
逐步法
多元线性回归(多对多:Y1, Y2, …Yk/X1,X2,…Xm) 最优子集法(all possible
(4) 采用不同的变量筛选方法得到的结果 可能不完全一致。一般说来, 前进法用于 各变量的协同作用不太大以及变量较多 的情形;后退法用于各变量协同作用较 大以及变量不太多的情形。逐步法则兼 有二者的优点, 用得最多。
多重线性回归的注意事项
(5) 筛选变量时用的检验水准(可规定一定的F值或P值) 不同得到的结果也不相同。一般取P值为0.05,但如选
进入标准: pin (0.05) 剔除标准: pout(0.10)
课件:多重线性回归与相关
一、决定系数与复相关系数
回归平方和在总平方和中所占百分比称为确定系
数(coefficient of determination),或决定系数,记 为R2 ,用于反映线性回归模型能在多大程度上解释反 应变量Y的变异性。定义为R2 =SSR/SST.它的取值范围 为0-1之间。它越接近1,表示样本数据很好地拟合了 所选用线性回归模型。 R2直接反映了回归方程中所有 自变量解释反应变量Y总变异的百分比,或者说, R2 也可以解释为回归方程使反应变量Y的总变异减少的百
的78.74%
复相关系数(multiple correlation
coefficient)R,定义为确定系数的算术平方根,
即 R
SSR 表示变量Y与k个自变量的线性相关的
SST
密切程度。
对本例R=0.8515。表示肺活量与三个自变量的复相关
系数为0.8515。
调整决定系数(Adjusted R-Square)
变异来源 回归模型
残差 总变异
SS
df
3.436
3
1.302 16 4.738 19
MS
F
P
1.145 14.067 <0.001
0.081
SS回它反应在Y的总变异中由于X与Y的直线关系而使 Y变异减少的部分.它越大说明回归效果越好. SS剩它反应X对Y的线性影响之外的一切因素对Y的变异 的作用.它越小,说明直线回归的估计误差越小.
河北省省级精品课程
卫生统计学
课程负责人: 尹素凤
第12章 多重线性回归与相关 主讲人:武建辉
第十二章 多重线性回归与相关
第一节 第二节 第三节 第四节
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)估计与预测,用较易测量的多个自变量来 估计难以测得应变量总体均数μY或预测个体Y值。
(4)多重回归分析是进一步学习logistic回归、 判别分析、 主成分分析、 因子分析等多元统计分析 方法的基础。
十一、筛选自变量方法
第一节 多重线性回归
一、多重线性回归模型 Y=β0+β1X1+β2X2+…+βmXm+e
Y ˆ b 0 b 1 X 1 b 2 X 2 .. b .m .X m
二、多重线性回归的基本条件
多重线性回归模型的应用条件同直线回归,即线性 (linearity)、独立性(indepen-dency)、正态性和方差 齐性(normal distribution and equal variance)等条 件,简记LINE。还要注意个自变量间不能存在多重共线性。
FM 回 S S回 S /m (nm 1 ) S回 S M 剩 SS剩 S /n (m 1 ) m S剩 S
剩余标准差
sY12m
SS剩 nm1
剩余标准差的平方是残差的方差,又称均方误 差,记为MSE,其值越小越好
(2) 偏回归系数的假设检验
分别考察每一个自变量 xi 与应变量 Y 是否都有 直线回归关系
第10讲 非参数检验
概述 多重线性回归的应用以及注意事项 多重线性回归的电脑实验
第11讲 多重线性回归—引言
在医药研究中,应变量的变化往往受到多个因 素的影响,此时就需要用多重线性回归 (Multiple Linear Regression),多重线性回归 是直线回归的扩展。例如,人的体重与身高、 胸围有关;人的心率与年龄、体重、肺活量有 关。因此,采用两个或多个影响因素作为自变 量(Xi)来解释应变量(Y)的变化,建立最优组合模 型来预测或估计因变量,比只用一个自变量进 行预5.2
5.5
4.7
6.8
5.4
2.9
4.0
3.1
3.1
0.08 0.07 0.01 0.07 0.11 0.11 0.07 0.11 0.03 0.01 0.02 0.21 0.01 0.11 0.10
230
260
252
消除多重共线性的方法有多种,如岭回归、主 成分回归等。
五、多重回归的样本含量
只要例数n多于自变量个数m即可,一般要求n 为m的5倍以上。
六、多重回归的检验
多元线性回归方程的假设检验:①对整个方程 的综合检验,即对回归方程的线性假设检验;②对 每一个自变量的检验,即对每个偏回归系数的假设 检验。
⑴ 回归方程的方差分析
(1)全局择优法:m 个自变量的不同组合共有 2m-1 种,分别建立回归方程进行比较后择优。择优 的准则有多种,准则不同,筛选的结果可能不同。 如果用最大校正决定系数准则,则挑选校正决定系 数R2a最大者来获得“最优子集”的回归方程。 SPSS为Enter法。
(2)逐步选择法: 备选自变量较多时,全局择 优的计算量非常大, 用逐步回归法选择可减少计算 量。常用逐步(Stepwise)、向前(Forward)、向 后(Backward)法。向后法考虑了自变量的组合作 用,但变量数不能太多。3种逐步回归方法选中的自 变量不一定相同。 逐步回归得到只是局部最优,不 一定是全局最优回归方程。
回归条件等。
从上到下从左到右依次编号为①-⑧:①散点均匀分布在以 0 为中心,与横轴平行 的带状区域内,可以认为基本满足线性和方差齐性的假定条件;②③散点呈现曲线趋势, 提示资料不满足线性的假设;④⑤⑥散点随预测值的变化而变化,提示资料不满足方差 齐性的假定;⑦⑧散点随预测值的变化而变化且呈曲线趋势,提示资料不满足方差齐性 的假定。
三、多重线性回归分析的步骤
1.估计参数,建立多重线性回归模型。 根据样本提供的数据资料,采用最小二乘法原理求得多重线性回归模型参数 0 ,1 , 2 ,…,m 的估计值,即求得 b0 ,b1 ,b2 ,…,bm ,从而得到Yˆ b0 b1X1 b2X2 .... bmXm 多重线性回归模型。 2.对整个模型进行假设检验,模型有统计学意义的前提下,再对各偏回归系数进行 假设检验。对求得的多重线性回归方程及各自变量进行假设检验,检验自变量 X1, X 2 ,…, X m 与应变量Y 之间是否存在线性关系。 3.计算相应指标,评价回归模型的拟合效果。 4.残差分析。 5.自变量的选择。 6.回归诊断与评价。
十二、自变量间交互作用的分析
将自变量的交互项引入方程进行检验分析。
【例17-1】 大白鼠作受试对象,分析乌头碱不 同注射速度x1、常咯啉的不同剂量x2,大鼠体重 x3 与应变量延缓心律失常发生的时间Y的关系。
编号 X1 X2 X3 Y
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
4.8
5.6
7.1
4.9
七、决定系数
R2=SS回 /SS总 校正决定系数是衡量方 程好坏的常用指标之一
八、标准化偏回归系数
Ra2d
1
MS剩 MS总
bi bi lii/lYY
九、残差分析
残差 ei Yi Yˆi ,标准化残差 ei
ei MS残差
。通常以标准化残差为纵坐标,以Yˆi
为横
坐标作残差图进行分析。残差分析可以用于评价回归模型和验证资料是否满足多重线性
四、多重共线性问题
如果一些自变量之间存在较强的线性关系,称 多重共线性。判断多重共线有相关系数、容忍度、 方差膨胀因子等指标。
一般来说,相关系数r>0.8的变量可能存在共线 问题,r>0.9的变量存在共线。
容忍度=1-R2,愈小说明共线问题愈严重,如 果某个自变量的容忍度<0.1,共线问题严重。
方差膨胀因子 = 容忍度的倒数,愈大说明共线 问题愈严重。
资料不满足其条件时,常用的处理方法有:修 改模型或者采用曲线拟合;变量变换,常用的 变量变换有对数变换、平方根变换、倒数变换 等。变量变换对自变量或(和)应变量均适宜; 如果方差不齐,可采用加权最小二乘法估计偏 回归系数。
十、多元回归分析的应用
(1)分析因素的相对重要性,找出对因变量最 大的关键因素。