多重线性回归分析【VIP专享】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

X2k
Y2





n
Xn1
Xn2

Xnk
Yn
5
二、基本原理
• 2.1 原理简介 多重线性回归模型: Y=b0+b1X1+b2X2+…+bkΒιβλιοθήκη Baiduk+e=bX+e
其中,bj (j=0, 1 , 2 … , k)为未知参数,e为随机误 差项。
6
二、基本原理
多重线性回归模型中包含多个自变量, 它们同时对因变量Y 发生作用。
除此之外,还要求多个自变量之间相关性不 要太强。
8
二、基本原理
• 2.2 前提条件 线性——指自变量与因变量之间的关系是线性的
独立性——指各观测值之间是相互独立的
正态性——指自变量取不同值时,因变量服从正 态分布
方差齐性——指自变量取不同值时,因变量的方 差相等
9
三、分析步骤
• 1. 基本任务 求出模型中参数的估计值,对模型和参数进行
22
三、分析步骤
当回归方程中变量少时某变量不符合入选标 准,但随着回归方程中变量逐次增多时,该变量就 可能符合入选标准;这样直到没有变量可入选为 止。
具体而言,是从仅含常数项(即截距项)的最 简单模型开始,逐步在模型中添加自变量。
23
三、分析步骤
局限性: sle取值小时,可能没有一个变量能入选; sle取值大时,开始选入的变量后来在新条件
16
三、分析步骤
• 对自变量Xi的系数是否为0进行假设检验, 步骤为: 第一步,建立检验假设。 H0:bi=0 H1: bi≠0
17
三、分析步骤
第二步,计算检验统计量。
t ˆi S ˆi
v n k 1
第三步,确定P值。
根据自由度和临界水平,查t分布表,可得双 侧界值为ta/2(n-k-1)。
若要考察一个自变量对Y 的影响,就必 须假设其他自变量保持不变。
因此,多重线性回归模型中的回归系数 为偏回归系数。
它反映的是当模型中的其他自变量不变 时,其中一个自变量对因变量Y 的均值的影 响。
7
二、基本原理
• 2.2 前提条件 多重线性回归分析要求资料满足线性(Linear)、
独立性(Independence)、正态性(Normality)和方 差齐性(Equal variance),即LINE条件。
• 2. 具体步骤 • 2.2 模型检验
根据方差分析的思想,将总的离均差平方和 SS总分解为回归平方和SS回和残差平方和SS残两部 分。
SS总的自由度为n-1, SS回的自由度为k, SS 残的自由度为n-k-1。
12
Y Y 2 Yˆ Y 2 Y Yˆ2
{ { {
SS总(总平方和) v总=n-1
第十一章 多重线性回归分析
内容
方法简介 基本原理 分析步骤 几点补充
2
一、方法简介
• 1.1 分析目的与方法选择 研究一个因变量与一个自变量间的线性关系时 简单线性回归分析 研究一个因变量与多个自变量间的线性关系时 多重线性回归分析
3
一、方法简介
• 1.2 概念 用回归方程定量地刻画一个因变量与多个自
变量之间的线性依存关系,称为多重线性回归分 析(multiple linear regression analysis)。
自变量是相互独立的连续型变量或分类变量。
4
一、方法简介
• 1.3 数据结构
表1 进行多重线性回归分析资料的数据结构
编号
X1
X2

Xk
Y
1
X11
X12

X1k
Y1
2
X21
X22

下不再进行检验,因而不能剔除后来变得无统计 学意义的变量。
SS回归(回归平方和) v回归=1
SS残差(残差平方和) v残差=n-p-1
自变量的个数
SS总= SS回归+ SS残差 v总= v回归+ v残差
三、分析步骤
• 2. 具体步骤 • 2.2 模型检验
模型的显著性检验步骤为: 第一步,建立检验假设。 H0:b1=b2= … =bk=0 H1: b1, b2, …, bk不同时为0
14
三、分析步骤
第二步,计算统计量F的值。
F SS回 / k
SS残 / n k 1
~ Fk,nk1
第三步,确定P值,下统计学结论。
根据检验统计量F的值和自由度,确定其对
应的P值。若P>a,则接受H0,认为回归模型的系 数全部为0;若P<a,则拒绝H0,接受H1,认为回
归模型的系数不全为0。
若t > ta/2(n-k-1)或t <- ta/2(n-k-1),则P<a。此
时,拒绝H0,接受H1,认为该回归系数不等于0。 反之,则接受H0,认为该回归系数为0。
18
三、分析步骤
• 2. 具体步骤 • 2.4 变量筛选
不是所有的自变量都对因变量的作用都有统 计学意义。
故需要找到一个较好的回归方程,使之满足: 方程内的自变量对回归都有统计学意义,方程外 的自变量对回归都无统计学意义。
假设检验; 对自变量进行共线性诊断,对观测值进行异常
值诊断; 结合统计学知识和专业知识,对回归方程进行
合理的解释,并加以应用。
10
三、分析步骤
• 2. 具体步骤 • 2.1 回归参数估计
多重线性回归分析的参数估计,常采用最小 二乘法(OLS)进行。
参数估计值为:
ˆ X X -1 X Y
11
三、分析步骤
15
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
回归方程有统计学意义,可以说明整体上自 变量对Y 有影响,但并不意味着每个自变量对因 变量的影响都有统计学意义。
考察各个自变量对因变量的影响,即检验其 系数是否为0。
若某自变量对因变量的影响无统计学意义, 可将其从模型中删除,重新建立回归方程。
20
全局择优法
• 变量筛选 逐步选择法
校正决定系数R2c 选择法 Cp选择法
前进法 后退法
逐步回归法
三、分析步骤
• 2.4.1 前进法(FORWARD) 回归方程中变量从无到有依次选择一个自变
量进入回归方程,并根据该变量在回归方程中的 Ⅱ型离差平方和(SS2)计算F统计量及P值。
当P小于sle (规定的选变量进入方程的临界水 平)则该变量入选,否则不能入选。
19
三、分析步骤
这就是自变量的选择问题,或称为变量筛选。 选择时,
一要尽可能地不漏掉重要的自变量; 二要尽可能地减少自变量的个数,保持模型的精简。
就回归方程而言,每个变量均有两种可能性, 即被选择或被踢除。所以,所有可能的模型有2k个 (k为自变量个数)。
自变量个数较多时,计算量过大。此时,需要 一定的变量筛选方法。
相关文档
最新文档