统计学 第三章 多元回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可能会使回归的结果造成混乱,甚至会把分 析引入歧途 ,F检验显著,t检验不显著
可能对参数估计值的正负号产生影响,特别 是各回归系数的正负号有可能同预期的正负 号相反
参数估计量的方差变大,参数检验有可能失 效,有些回归系数通不过显著性检验
33
2020/4/8
多重共线性的识别
1.检测多重共线性的最简单的一种办法是计算模型中各对自 变量之间的相关系数,并对各相关系数进行显著性检验
用Excel进行回归
14
2020/4/8
数据表
15
2020/4/8
参数的最小二乘估计
(例题分析)
偏回归系数
F检验 t 检验
16
2020/4/8
第二节 拟合优度和显著性检验
一、回归方程的拟合 二、显著性检验
17
2020/4/8
一、回归方程的拟合优度
18
2020/4/8
变差分解
y
(xi, yi )
2.对于线性模型来说,奥克姆剃刀可表示成简约原 则
一个模型应包括拟合数据所必需的最少变量
3.如果一个模型只包含数据拟合所必需的变量,这 个模型就称为简约模型(parsimonious model)
实际中的许多多元回归模型都是对简约模型的扩 展
37
2020/4/8
二、变量选择与逐步回归
38
2020/4/8
平方和关系:SST = SSR + SSE
自由度关系:n-1=k+(n-k-1)
20
2020/4/8
多重判定系数(multiple coefficient of determination)
回归平方和占总平方和的比例 计算公式为
n
R2
yˆi
i1
n
yi
y 2 y 2
SSR SST
1
SSE SST
6
2020/4/8
一、回归模型与回归方程
7
2020/4/8
多元回归模型 (multiple linear regression model)
一个因变量与两个及两个以上自变量的回归
描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xk 和误差项 的方程,称为多元回归模型
涉及 k 个自变量的多元线性回归模型可表示为
父亲身高、母亲身高、性别是不是影响子女身高的主要 因素呢?如果是,子女身高与这些因素之间能否建立一 个线性关系方程,并根据这一方程对身高做出预测?
这就是本章将要讨论的多元线性回归问题
4
2020/4/8
调查数据
子女 身高 171 174 177 178 180 181 159 169 170 170
y b0 b1x1 b2x2 L bk xk
b0 ,b1,b2 ,,bk是参数 是被称为误差项的随机变量 y 是x1,x2 , ,xk 的线性函数加上误差项 包含在y里面但不能被k个自变量的线性关系所解
释的变异性
8
2020/4/8
多元回归模型的基本假定
正态性。误差项ε是一个服从正态分布的随机变量, 且期望值为0,即ε~N(0,2)
i1
因变量取值的变差中,能被估计的多元回归方程 所解释的比例
21
2020/4/8
修正多重判定系数(adjusted multiple coefficient of determination)
用样本量n和自变量的个数k去修正R2得到 计算公式为
Ra2 1
1 R2
n 1 n k 1
避免增加自变量而高估 R2
来自残差(随机影响)
}y yˆ
yy
yˆ bˆ0 bˆ1x
}yˆ y 来自回归(系统影响)
y
x
19
2020/4/8
变差平方和关系
n
n
n
yi y2 yˆi y2 yi yˆ2
i 1
i1
i1
{ { {
总平方和(SST) 自由度:n-1
回归平方(SSR) 自由度:k
残差平方和(SSE) 自由度:n-k-1
意义与 R2类似
数值小于R2 用Excel进行回归
22
2020/4/8
多重相关系数
(multiple correlation coefficient)
多重判定系数的平方根R
反映因变量y与k个自变量之间的相关程度
实际上R度量的是因变量的观测值 yi 与由
多元回归方程得到的预测值 yˆi 之间的关系
方差齐性。对于自变量x1,x2,…,xk的所有值,
的方差 2都相同
独立性。对于自变量x1,x2,…,xk的一组特定值,
它所对应的与任意一组其他值所对应的不相关
9
2020/4/8
多元线性回归方程(multiple linear regression equation)
1.描述因变量 y 的平均值或期望值如何依赖于自变量
2004年12月,中国人民大学国民经济管理系02级的两位 学生,对人大在校生进行了问卷调查。问卷采取随机发 放、当面提问当场收回
调查的样本量为98人,男性55人,女性43人。调查内容 包括被调查者的身高(单位:cm)、性别、其父母身高、 是否经常参加体育锻炼、家庭所在地是在南方还是在北 方等等。部分数据如下页的表所示(1代表男性,0代表女 性)
如果是显著的,因变量与自变量之间存在线性 关系
如果不显著,因变量与自变量之间不存在线性 关系
26
2020/4/8
线性关系检验
1. 提出假设
H0:b1b2bk=0 线性关系不显著 H1:b1,b2, bk至少有一个不等于0
2. 计算检验统计量F
n
F SSR k SSE (n k 1)
sbˆi
se
xi x 2
30
2020/4/8
第三节 多重共线性及其处理
一、多重共线性及其识别 二、变量选择与逐步回归
31
2020/4/8
一、多重共线性及其识别
32
2020/4/8
多重共线性(multicollinearity)
1.回归模型中两个或两个以上的自变量彼此相关
2.多重共线性带来的问题有
父亲 身高 165 182 166 178 173 170 171 167 175 172
母亲 身高 157 165 156 160 160 165 150 158 160 162
子女 性别
0 0 0 0 0 0 0 0 0 0
2020/4/8
第一节 多元线性回归模型
一、回归模型与回归方程
二、参数的最小二乘估计
1.将一个或多个相关的自变量从模型中剔除,使保
留的自变量尽可能不相关 2.如果要在模型中保留所有的自变量,则应
避免根据 t 统计量对单个参数进行检验 对因变量值的推断(估计或预测) 限定在自变量样
本值的范围内
35
2020/4/8
提示
1.在建立多元线性回归模型时,不要试图引入 更多的自变量,除非确实有必要
用样本统计量 bˆ0,bˆ1,bˆ2,L ,bˆk 估计回归方 程中的 参数 b0,b1,b2,L ,bk 时得到的方程
由最小二乘法求得 一般形式为
yˆ bˆ0 bˆ1x1 bˆ2x2 L bˆk xk
bˆ0,bˆ1,bˆ2,L ,bˆk 是 b0,b1,b2,L ,bk
估计值
yˆ 是 y 的估计值
究竟要对哪几个回归系数进行检验,通常需要在建 立模型之前作出决定
对回归系数检验的个数进行限制,以避免犯过多的 第Ⅰ类错误(弃真错误)
对每一个自变量都要单独进行检验
应用 t 检验统计量
28
2020/4/8
回归系数的检验(步骤)
1.提出假设
H0:bi 0 (自变量 xi 与 因变量 y 没有线性关系) H1:bi 0 (自变量 xi 与 因变量 y有线性关系)
i 1
求解各回归参数的标准方程如下
Q
b0
b0 bˆ0
0
Q
bi
bi bˆi
0
13
(i 1,2,L ,k)
2020/4/8
参数的最小二乘法(例题分析)
【例】一家大型商业银行在多个地区设有分行 ,为弄清楚不良贷款形成的原因,抽取了该 银行所属的25家分行2002年的有关业务数 据。试建立不良贷款y与贷款余额x1、累计 应收贷款x2、贷款项目个数x3和固定资产投 资额x4的线性回归方程,并解释各回归系数 的含义
若有一个或多个相关系数显著,就表示模型中所用 的自变量之间相关,存在着多重共线性
2.如果出现下列情况,暗示存在多重共线性(经验判断) 模型中各对自变量之间显著相关
当模型的线性关系检验(F检验)显著时,几乎所有回 归系数的t检验却不显著
回归系数的正负号与预期的相反
34
2020/4/8
多重共线性的处理
强度,即多重相关系数R等于因变量的观
测值 yi 与估计值 yˆi 之间的简单相关系数即:
R
即 rxy
R2
ryyˆ
ryyˆ (一元相关系数r也是如此,
。读者自己去验证)
23
2020/4/8
估计标准误差 Se
对误差项的标准差 的一个估计值 衡量多元回归方程的拟合优度 计算公式为
n
Se
yi yˆi 2
11
2020/4/8
二、 参数的最小二乘估计
12
2020/4/8
参数的最小二乘估计
使因变量的观察值与估计值之间的离差平方和 达到最小来求得 bˆ0,bˆ1,bˆ2,L ,bˆk 。即
n
n
Q(bˆ0 , bˆ1, bˆ2,L , bˆk ) ( yi yˆi )2 ei2 最小
i 1
单位:cm
5
父亲 身高
母亲 身高
166
158
171
158
179
168
174
160
173
162
170
160
168
153
168
153
170
167
170
160
1:男
子女 性别
1 1 1 1 1 1 1 1 1 1
0:女
子女 身高 155 161 166 170 158 160 160 162 165 168
n
yˆi y 2 k
i1
~ F(k , n k 1)
yi yˆ 2 (n k 1)
i1
3.确定显著性水平和分子自由度k、分母自由度n-k-1找出临
界值F 4. 作出决策:若F>F ,拒绝H0
27
2020/4/8
回归系数的检验
线性关系检验通过后,对各个回归系数有选择地进 行一次或多次检验
2
2020/4/8
学习目标
多元线性回归模型、回归方程与估计的回归方 程
回归方程的拟合优度与显著性检验 多重共线性问题及其处理 利用回归方程进行预测 虚拟自变量的回归 用Excel和SPSS进行回归分析
3
2020/4/8
身高受那些因素影响?
决定身高的因素是什么?父母遗传、生活环境、体育锻 炼,还是以上各因素的共同作用
i1
ቤተ መጻሕፍቲ ባይዱ
nk 1
SSE MSE nk 1
用Excel进行回归
24
2020/4/8
二、显著性检验
25
2020/4/8
线性关系检验
检验因变量与所有自变量之间的线性关系是 否显著
也被称为总体的显著性检验 检 验 方 法 是 将 回 归 均 方 (MSR) 同 残 差 均 方
(MSE)加以比较,运用 F 检验来分析二者之 间的差别是否显著
第 三 章 多元线性回归
统计名言
上好的模型选择可遵循一个称为奥克姆剃刀(Occam’s Razor)的基本原理:最好的科学模型往往最简单,且 能解释所观察到的事实。
——William Navidi
2020/4/8 1
第 三 章 多元线性回归
第一节 多元线性回归模型 第二节 拟合优度和显著性检验 第三节 多重共线性及其处理 第四节 利用回归方程进行预测 第五节 虚拟自变量的回归
变量选择过程
在建立回归模型时,对自变量进行筛选
选择自变量的原则是对统计量进行显著性检验
将一个或一个以上的自变量引入到回归模型中时,是否使 得残差平方和(SSE)有显著地减少。如果增加一个自变量 使SSE的减少是显著的,则说明有必要将这个自变量引入 回归模型,否则,就没有必要将这个自变量引入回归模型
x1, x2 ,…,xk的方程 2.多元线性回归方程的形式为
E( y ) = b0+ b1 x1 + b2 x2 +…+ bk xk
b1,b2,,bk称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位
时,y 的平均变动值
10
2020/4/8
估计的多元线性回归方程
(estimated multiple linear regression equation)
2.在社会科学的研究中,由于所使用的大多数 数据都是非试验性质的,因此,在某些情况 下,得到的结果往往并不令人满意,但这不 一定是选择的模型不合适,而是数据的质量 不好,或者是由于引入的自变量不合适
36
2020/4/8
奥克姆剃刀(Occam’s Razor)
1.模型选择可遵循奥克姆剃刀的基本原理
最好的科学模型往往最简单,且能解释所观察到 的事实
2.计算检验的统计量 t
t bˆi ~ t(n k 1)
Sbˆi
3. 确定显著性水平,并进行决策
t>t2,拒绝H0; t<t2,不拒绝H0
29
2020/4/8
回归系数的推断 (置信区间)
回归系数在(1-)%置信水平下的置信区间为
bˆi t 2 (n k 1)sbˆi
自由度
回归系数的抽样标准差
相关文档
最新文档