多重线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
bk不同时为0
13
三、分析步骤
第二步,计算统计量F的值。
SS回 / k F ~ F k ,nk 1 SS残 / n k 1
第三步,确定P值,下统计学结论。
根据检验统计量F的值和自由度,确定其对
应的P值。若P>a,则接受H0,认为回归模型的系
数全部为0;若P<a,则拒绝H0,接受H1,认为回
归模型的系数不全为0。
14
三、分析步骤
• 2. 具体步骤 • 2.3 参数检验
回归方程有统计学意义,可以说明整体上自 变量对Y 有影响,但并不意味着每个自变量对因 变量的影响都有统计学意义。 考察各个自变量对因变量的影响,即检验其 系数是否为0。 若某自变量对因变量的影响无统计学意义, 可将其从模型中删除,重新建立回归方程。
除此之外,还要求多个自变量之间相关性不 要太强。
7
二、基本原理
• 2.2 前提条件
线性——指自变量与因变量之间的关系是线性的 独立性——指各观测值之间是相互独立的 正态性——指自变量取不同值时,因变量服从正 态分布 方差齐性——指自变量取不同值时,因变量的方 差相等
8
三、分析步骤
• 1. 基本任务
2 2
2
{
{
SS回归(回归平方和)
SS总(总平方和) v总=n-1
SS残差(残差平方和)
v回归=1
SS总= SS回归+ SS残差 v总= v回归+ v残差
{
v残差=n-p-1
自变量的个数
三、分析步骤
• 2. 具体步骤
• 2.2 模型检验
模型的显著性检验步骤为:
第一步,建立检验假设。 H0:b1=b2= … =bk=0 H1: b1, b2, …,
后退法
逐步回归法
三、分析步骤
• 2.4.1 前进法(FORWARD)
回归方程中变量从无到有依次选择一个自变
量进入回归方程,并根据该变量在回归方程中的
Ⅱ型离差平方和(SS2)计算F统计量及P值。 当P小于sle (规定的选变量进入方程的临界水
平)则该变量入选,否则不能入选。
21
三、分析步骤
当回归方程中变量少时某变量不符合入选标
二要尽可能地减少自变量的个数,保持模型的精简。
就回归方程而言,每个变量均有两种可能性, 即被选择或被踢除。所以,所有可能的模型有2k个 (k为自变量个数)。
自变量个数较多时,计算量过大。此时,需要 一定的变量筛选方法。
19
全局择优法 • 变量筛选
校正决定系数R2 c 选择法 Cp选择法
逐步选择法
前进法
准,但随着回归方程中变量逐次增多时,该变量就
可能符合入选标准;这样直到没有变量可入选为
止。
具体而言,是从仅含常数项(即截距项)的最
简单模型开始,逐步在模型中添加自变量。
22
三、分析步骤
局限性:
sle取值小时,可能没有一个变量能入选;
sle取值大时,开始选入的变量后来在新条件 下不再进行检验,因而不能剔除后来变得无统计 学意义的变量。
17
三、分析步骤
• 2. 具体步骤
• 2.4 变量筛选
不是所有的自变量都对因变量的作用都有统
计学意义。 故需要找到一个较好的回归方程,使之满足: 方程内的自变量对回归都有统计学意义,方程外 的自变量对回归都无统计学意义。
18
三、分析步骤
这就是自变量的选择问题,或称为变量筛选。 选择时,
一要尽可能地不漏掉重要的自变量;
n
Xn1
Xn2
…
Xnk
Yn
4
二、基本原理
• 2.1 原理简介
多重线性回归模型:
Y=b0+b1X1+b2X2+…+bkXk+e=bX+e 其中,bj (j=0, 1 , 2 … , k)为未知参数,
e为随机误差项。
5
二、基本原理 多重线性回归模型中包含多个自变量, 它们同时对因变量Y 发生作用。 若要考察一个自变量对Y 的影响,就必 须假设其他自变量保持不变。
求出模型中参数的估计值,对模型和参数进行
假设检验;
对自变量进行共线性诊断,对观测值进行异常 值诊断; 结合统计学知识和专业知识,对回归方程进行 合理的解释,并加以应用。
9
三、分析步骤
• 2. 具体步骤
• 2.1 回归参数估计
多重线性回归分析的参数估计,常采用最小
二乘法(OLS)进行。 参数估计值为:
析(multiple linear regression analysis)。
自变量是相互独立的连续型变量或分类变量。
3
一、方法简介
• 1.3 数据结构
表1 进行多重线性回归分析资料的数据结构 编号 1 2 : X1 X11 X21 : X2 X12 X22 : … … … Xk X1k X2k : Y Y1 Y2 :
内 容
方法简介
基本原理 分析步骤 几点补充
1
一、方法简介
• 1.1 分析目的与方法选择
研究一个因变量与一个自变量间的线性关系时 简单线性回归分析 研究一个因变量与多个自变量间的线性关系时 多重线性回归分析
2
一、方法简介
• 1.2 概念
用回归方程定量地刻画一个因变量与多个自
变量之间的线性依存关系,称为多重线性回归分
-1 ˆ X X X Y
10
三、分析步骤
• 2. 具体步骤
• 2.2 模型检验
根据方差分析的思想,将总的离均差平方和
SS总分解为回归平方和SS回和残差平方和SS残两部 分。 SS总的自由度为n-1, SS回的自由度为k, SS
残的自由度为n-k-1。
11
ˆ ˆ Y Y Y Y Y Y
因此,多重线性回归模型中的回归系数 为偏回归系数。 它反映的是当模型中的其他自变量不变 时,其中一个自变量对因变量Y 的均值的影 响。
6
二、基本原理
• 2.2 前提条件
多重线性回归分析要求资料满足线性(Linear)、
独立性(Independence)、正态性(Normality)和方
差齐性(Leabharlann Baiduqual variance),即LINE条件。
15
三、分析步骤 • 对自变量Xi的系数是否为0进行假设检验, 步骤为: 第一步,建立检验假设。
H0:bi=0
H1: bi≠0
16
三、分析步骤
第二步,计算检验统计量。
t
ˆ S i
ˆ i
v n k 1
第三步,确定P值。 根据自由度和临界水平,查t分布表,可得双 侧界值为ta/2(n-k-1)。 若t > ta/2(n-k-1)或t <- ta/2(n-k-1),则P<a。此 时,拒绝H0,接受H1,认为该回归系数不等于0。 反之,则接受H0,认为该回归系数为0。