(10)第10章 多元线性回归(2011年)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归面
}
i
x2 (x1,x2) x1
10 - 11
E ( y) b 0 b1 x1 b 2 x2
2015-7-1
统计学
STATISTICS (第四版)
估计的多元线性回归的方程
(estimated multiple linear regression equation)
ˆ ,b ˆ ,b ˆ ,, b ˆ 估计回归方 1. 用样本统计量 b 0 1 2 k 程中的 参数 b 0 , b1 , b 2 ,, b k 时得到的方程 2. 由最小二乘法求得 3. 一般形式为
输出结果
10 - 26 2015-7-1
统计学
STATISTICS (第四版)
回归系数的检验
1. 线性关系检验通过后,对各个回归系数有 选择地进行一次或多次检验 2. 究竟要对哪几个回归系数进行检验,通常 需要在建立模型之前作出决定 3. 对回归系数检验的个数进行限制,以避免 犯过多的第Ⅰ类错误(弃真错误) 4. 对每一个自变量都要单独进行检验 5. 应用 t 检验统计量
2015-7-1
10 - 5
第 10 章 多元线性回归
10.1 多元线性回归模型
10.1.1 回归模型与回归方程 10.1.2 参数的最小二乘估计
10.1 多元线性回归模型 10.1.1 回归模型与回归方程
统计学
STATISTICS (第四版)
多元回归模型
(multiple linear regression model)
进行回归
10 - 15
进行回归
2015-7-1
统计学
STATISTICS (第四版)
参数的最小二乘估计
(Excel输出结果)
偏回归系数
F检验
t 检验
10 - 16
2015-7-1
统计学
STATISTICS (第四版)
参数的最小二乘估计
(SPSS输出结果)
10 - 17
2015-7-1
第 10 章 多元线性回归
统计学
STATISTICS (第四版)
参数的最小二乘估计
1. 使因变量的观察值与估计值之间的离差平方和 ˆ ,b ˆ ,b ˆ ,, b ˆ 。即 达到最小来求得 b 0 1 2 k
2. 求解各回归参数的标准方程如下
Q b 0 Q b i
10 - 14
0
ˆ b0 b 0
避免根据 t 统计量对单个参数进行检验
对因变量值的推断(估计或预测)的限定在自 变量样本值的范围内
1. 回归模型中两个或两个以上的自变量彼此 相关
2. 多重共线性带来的问题有
可能会使回归的结果造成混乱,甚至会把分 析引入歧途
可能对参数估计值的正负号产生影响,特别 是各回归系数的正负号有可能同预期的正负 号相反
输出结果
2015-7-1
10 - 32
统计学
STATISTICS (第四版)
多重共线性的识别
1. 一个因变量与两个及两个以上自变量的回归 2. 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xk 和误差项 的方程,称为多元回归模型 3. 涉及 k 个自变量的多元线性回归模型可表示为
y b 0 b1 x1 b 2 x2 b k xk
b0 ,b1,b2 ,,bk是参数 是被称为误差项的随机变量 y 是x1,,x2 , ,xk 的线性函数加上误差项 包含在y里面但不能被k个自变量的线性关系 所解释的变异性
10 - 29 2015-7-1
第 10 章 多元线性回归
10.3 多重共线性及其处理
10.3.1 多重共线性及其识别 10.3.2 变量选择与逐步回归
10.3 多重共线性及其处理 10.3.1 多重共线性及其识别
统计学
STATISTICS (第四版)
多重共线性
(multicollinearity)
10 - 27 2015-7-1
统计学
STATISTICS (第四版)
回归系数的检验
(步骤)
H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系)
1. 提出假设
2. 计算检验的统计量 t
3. 确定显著性水平,并进行决策
2. 如果出现下列情况,暗示存在多重共线性
输出结果
10 - 33 2015-7-1
统计学
STATISTICS (第四版)
相关矩阵及其检验
(SPSS )
SPSS
10 - 34
2015-7-1
统计学
STATISTICS (第四版)
多重共线性的处理
1. 将一个或多个相关的自变量从模型中剔 除,使保留的自变量尽可能不相关 2. 如果要在模型中保留所有的自变量,则 应
线性关系检验
1. 检验因变量与所有自变量之间的线性关系是 否显著 2. 也被称为总体的显著性检验 3. 检 验 方 法 是 将 回 归 均 方 (MSR) 同 残 差 均 方 (MSE)加以比较,应用 F 检验来分析二者之 间的差别是否显著
如果是显著的,因变量与自变量之间存在线性 关系 如果不显著,因变量与自变量之间不存在线性 关系
1. 检测多重共线性的最简单的一种办法是计算模型 中各对自变量之间的相关系数,并对各相关系数 进行显著性检验
若有一个或多个相关系数显著,就表示模型中所用 的自变量之间相关,存在着多重共线性 模型中各对自变量之间显著相关 当模型的线性关系检验 (F检验) 显著时,几乎所有回 归系数的t检验却不显著 回归系数的正负号与预期的相反
ˆ b ˆ x b ˆ x b ˆx ˆb y 0 1 1 2 2 k k
ˆ ,b ˆ ,b ˆ ,, b ˆ 是 b 0 1 2 k 估计值 y ˆ 是 y 的估计值
10 - 12
b 0 , b1 , b 2 ,, b k
2015-7-1
10.1 多元线性回归模型 10.1.2 参数的最小二乘估计
3. 避免增加自变量而高估 R2 4. 意义与 R2类似 5. 数值小于R2
输出结果
10 - 21 2015-7-1
统计学
STATISTICS (第四版)
多重相关系数
(multiple
correlation coefficient)
1. 多重判定系数的平方根R 2. 反映因变量y与k个自变量之间的相关程度 3. 实际上R度量的是因变量的观测值 yi 与由 ˆ i 之间的关系 多元回归方程得到的预测值 y 强度,即多重相关系数 R 等于因变量的观 测值 yi与估计值 y ˆ之间的简单相关系数即 i 2 R R ryyˆ ( 一元相关系数 r 也是如此, 即 rxy ryy ˆ 。读者自己去验证)
10 - 8 2015-7-1
统计学
STATISTICS (第四版)
多元回归模型
(基本假定)
1. 正态性。误差项ε 是一个服从正态分布的 随机变量,且期望值为0,即ε~N(0,2) 2. 方差齐性。对于自变量 x1 , x2, … , xk 的 所有值, 的方差 2都相同 3. 独立性。对于自变量 x1 , x2 , … , xk 的一 组特定值,它所对应的 与任意一组其他 值所对应的不相关
3. 因变量取值的变差中,能被估计的多元回 归方程所解释的比例
10 - 20 2015-7-1
统计学
STATISTICS (第四版)
修正多重判定系数
(adjusted multiple coefficient of determination)
1. 用样本量n和自变量的个数k去修正R2得到 2. 计算公式为
10 - 4 2015-7-1
统计学
STATISTICS (第四版)
身高受那些因素影响?
决定身高的因素是什么?父母遗传、生活环境、体育锻炼, 还是以上各因素的共同作用 2004年12月,中国人民大学国民经济管理系 02级的两位 学生,对人大在校生进行了问卷调查。问卷采取随机发放、 当面提问当场收回 调查的样本量为 98 人,男性55人,女性 43人。调查内容 包括被调查者的身高(单位:cm)、性别、其父母身高、是 否经常参加体育锻炼、家庭所在地是在南方还是在北方等 等。部分数据如教材中的表所示(1代表男性,0代表女性) 父亲身高、母亲身高、性别是不是影响子女身高的主要 因素呢?如果是,子女身高与这些因素之间能否建立一个 线性关系方程,并根据这一方程对身高做出预测? 这就是本章将要讨论的多元线性回归问题
b1,b2,,bk称为偏回归系数
bi 表示假定其他变量不变,当 xi 每变 动一个单位时,y 的平均变动值
10 - 10
2015-7-1
统计学
STATISTICS (第四版)
二元回归方程的直观解释
y b 0 b1 x1 b 2 x2
(观察到的y)
二元线性回归模型 y
b0
2015-7-1
10 - 25
统计学
STATISTICS (第四版)
线性关系检验
H0:b1b2bk=0 线性关系不显著 H1:b1,b2, bk至少有一个不等于0
1. 提出假设
2. 计算检验统计量F
3. 确定显著性水平和分子自由度k、分母自由度nk-1找出临界值F 4. 作出决策:若F>F ,拒绝H0
10 - 22 2015-7-1
统计学
STATISTICS (第四版)
估计标准误差 Se
1. 对误差项的标准差 的一个估计值 2. 衡量多元回归方程的拟合优度 3. 计算公式为
输出结果
10 - 23 2015-7-1
10.2 拟合优度和显著性检验 10.2.2 显著性检验
统计学
STATISTICS (第四版)
10 - 9
2015-7-1
统计学
STATISTICS (第四版)
多元线性回归方程
(multiple linear regression equation)
1. 描述因变量 y 的平均值或期望值如何依赖 于自变量 x1, x2 ,…,xk的方程 2. 多元线性回归方程的形式为 E( y ) = b0+ b1 x1 + b2 x2 +…+ bk xk
t>t2,拒绝H0; t<t2,不拒绝H0 输出结果
2015-7-1
10 - 28
统计学
STATISTICS (第四版)
回归系数的推断
(置信区间)
回归系数在(1-)%置信水平下的置信区间为
ˆ t (n k 1)s ˆ b i 2 b
回归系数的 Fra Baidu bibliotek样标准差
i
输出结果
10.2 拟合优度和显著性检验
10.2.1 回归方程的拟合优度 10.2.2 显著性检验
10.2 拟合优度和显著性检验 10.2.1 回归方程的拟合优度
统计学
STATISTICS (第四版)
多重判定系数
(multiple coefficient of determination)
1. 回归平方和占总平方和的比例 2. 计算公式为
统 计 学 数据分析
(方法与案例)
作者 贾俊平
统计学
STATISTICS (第四版)
统计名言
好的模型选择可遵循一个称为奥克 姆剃刀(Occam’s Razor)的基本原理: 最好的科学模型往往最简单,且能 解释所观察到的事实。
——William Navidi
10 - 2 2015-7-1
第 10 章 多元线性回归
10.1 10.2 10.3 10.4 10.5 多元线性回归模型 拟合优度和显著性检验 多重共线性及其处理 利用回归方程进行预测 哑变量回归
统计学
STATISTICS (第四版)
学习目标
多元线性回归模型、回归方程与估计的回 归方程 回归方程的拟合优度与显著性检验 多重共线性问题及其处理 利用回归方程进行预测 哑变量的回归 用Excel和SPSS进行回归分析
0
ˆ bi b i
(i 1, 2, ,k )
2015-7-1
统计学
STATISTICS (第四版)
参数的最小二乘法
(例题分析)
【例10-1】一家商业银行在多个地区设有分行,其业务主要 是进行基础设施建设、国家重点项目建设、固定资产投资 等项目的贷款。近年来,该银行的贷款额平稳增长,但不 良贷款额也有较大比例的提高,这给银行业务的发展带来 较大压力。为弄清楚不良贷款形成的原因,希望利用银行 业务的有关数据做些定量分析,以便找出控制不良贷款的 办法。试建立不良贷款 y 与贷款余额 x1 、累计应收贷款 x2 、贷款项目个数x3和固定资产投资额x4的线性回归方程, 并解释各回归系数的含义
}
i
x2 (x1,x2) x1
10 - 11
E ( y) b 0 b1 x1 b 2 x2
2015-7-1
统计学
STATISTICS (第四版)
估计的多元线性回归的方程
(estimated multiple linear regression equation)
ˆ ,b ˆ ,b ˆ ,, b ˆ 估计回归方 1. 用样本统计量 b 0 1 2 k 程中的 参数 b 0 , b1 , b 2 ,, b k 时得到的方程 2. 由最小二乘法求得 3. 一般形式为
输出结果
10 - 26 2015-7-1
统计学
STATISTICS (第四版)
回归系数的检验
1. 线性关系检验通过后,对各个回归系数有 选择地进行一次或多次检验 2. 究竟要对哪几个回归系数进行检验,通常 需要在建立模型之前作出决定 3. 对回归系数检验的个数进行限制,以避免 犯过多的第Ⅰ类错误(弃真错误) 4. 对每一个自变量都要单独进行检验 5. 应用 t 检验统计量
2015-7-1
10 - 5
第 10 章 多元线性回归
10.1 多元线性回归模型
10.1.1 回归模型与回归方程 10.1.2 参数的最小二乘估计
10.1 多元线性回归模型 10.1.1 回归模型与回归方程
统计学
STATISTICS (第四版)
多元回归模型
(multiple linear regression model)
进行回归
10 - 15
进行回归
2015-7-1
统计学
STATISTICS (第四版)
参数的最小二乘估计
(Excel输出结果)
偏回归系数
F检验
t 检验
10 - 16
2015-7-1
统计学
STATISTICS (第四版)
参数的最小二乘估计
(SPSS输出结果)
10 - 17
2015-7-1
第 10 章 多元线性回归
统计学
STATISTICS (第四版)
参数的最小二乘估计
1. 使因变量的观察值与估计值之间的离差平方和 ˆ ,b ˆ ,b ˆ ,, b ˆ 。即 达到最小来求得 b 0 1 2 k
2. 求解各回归参数的标准方程如下
Q b 0 Q b i
10 - 14
0
ˆ b0 b 0
避免根据 t 统计量对单个参数进行检验
对因变量值的推断(估计或预测)的限定在自 变量样本值的范围内
1. 回归模型中两个或两个以上的自变量彼此 相关
2. 多重共线性带来的问题有
可能会使回归的结果造成混乱,甚至会把分 析引入歧途
可能对参数估计值的正负号产生影响,特别 是各回归系数的正负号有可能同预期的正负 号相反
输出结果
2015-7-1
10 - 32
统计学
STATISTICS (第四版)
多重共线性的识别
1. 一个因变量与两个及两个以上自变量的回归 2. 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xk 和误差项 的方程,称为多元回归模型 3. 涉及 k 个自变量的多元线性回归模型可表示为
y b 0 b1 x1 b 2 x2 b k xk
b0 ,b1,b2 ,,bk是参数 是被称为误差项的随机变量 y 是x1,,x2 , ,xk 的线性函数加上误差项 包含在y里面但不能被k个自变量的线性关系 所解释的变异性
10 - 29 2015-7-1
第 10 章 多元线性回归
10.3 多重共线性及其处理
10.3.1 多重共线性及其识别 10.3.2 变量选择与逐步回归
10.3 多重共线性及其处理 10.3.1 多重共线性及其识别
统计学
STATISTICS (第四版)
多重共线性
(multicollinearity)
10 - 27 2015-7-1
统计学
STATISTICS (第四版)
回归系数的检验
(步骤)
H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系)
1. 提出假设
2. 计算检验的统计量 t
3. 确定显著性水平,并进行决策
2. 如果出现下列情况,暗示存在多重共线性
输出结果
10 - 33 2015-7-1
统计学
STATISTICS (第四版)
相关矩阵及其检验
(SPSS )
SPSS
10 - 34
2015-7-1
统计学
STATISTICS (第四版)
多重共线性的处理
1. 将一个或多个相关的自变量从模型中剔 除,使保留的自变量尽可能不相关 2. 如果要在模型中保留所有的自变量,则 应
线性关系检验
1. 检验因变量与所有自变量之间的线性关系是 否显著 2. 也被称为总体的显著性检验 3. 检 验 方 法 是 将 回 归 均 方 (MSR) 同 残 差 均 方 (MSE)加以比较,应用 F 检验来分析二者之 间的差别是否显著
如果是显著的,因变量与自变量之间存在线性 关系 如果不显著,因变量与自变量之间不存在线性 关系
1. 检测多重共线性的最简单的一种办法是计算模型 中各对自变量之间的相关系数,并对各相关系数 进行显著性检验
若有一个或多个相关系数显著,就表示模型中所用 的自变量之间相关,存在着多重共线性 模型中各对自变量之间显著相关 当模型的线性关系检验 (F检验) 显著时,几乎所有回 归系数的t检验却不显著 回归系数的正负号与预期的相反
ˆ b ˆ x b ˆ x b ˆx ˆb y 0 1 1 2 2 k k
ˆ ,b ˆ ,b ˆ ,, b ˆ 是 b 0 1 2 k 估计值 y ˆ 是 y 的估计值
10 - 12
b 0 , b1 , b 2 ,, b k
2015-7-1
10.1 多元线性回归模型 10.1.2 参数的最小二乘估计
3. 避免增加自变量而高估 R2 4. 意义与 R2类似 5. 数值小于R2
输出结果
10 - 21 2015-7-1
统计学
STATISTICS (第四版)
多重相关系数
(multiple
correlation coefficient)
1. 多重判定系数的平方根R 2. 反映因变量y与k个自变量之间的相关程度 3. 实际上R度量的是因变量的观测值 yi 与由 ˆ i 之间的关系 多元回归方程得到的预测值 y 强度,即多重相关系数 R 等于因变量的观 测值 yi与估计值 y ˆ之间的简单相关系数即 i 2 R R ryyˆ ( 一元相关系数 r 也是如此, 即 rxy ryy ˆ 。读者自己去验证)
10 - 8 2015-7-1
统计学
STATISTICS (第四版)
多元回归模型
(基本假定)
1. 正态性。误差项ε 是一个服从正态分布的 随机变量,且期望值为0,即ε~N(0,2) 2. 方差齐性。对于自变量 x1 , x2, … , xk 的 所有值, 的方差 2都相同 3. 独立性。对于自变量 x1 , x2 , … , xk 的一 组特定值,它所对应的 与任意一组其他 值所对应的不相关
3. 因变量取值的变差中,能被估计的多元回 归方程所解释的比例
10 - 20 2015-7-1
统计学
STATISTICS (第四版)
修正多重判定系数
(adjusted multiple coefficient of determination)
1. 用样本量n和自变量的个数k去修正R2得到 2. 计算公式为
10 - 4 2015-7-1
统计学
STATISTICS (第四版)
身高受那些因素影响?
决定身高的因素是什么?父母遗传、生活环境、体育锻炼, 还是以上各因素的共同作用 2004年12月,中国人民大学国民经济管理系 02级的两位 学生,对人大在校生进行了问卷调查。问卷采取随机发放、 当面提问当场收回 调查的样本量为 98 人,男性55人,女性 43人。调查内容 包括被调查者的身高(单位:cm)、性别、其父母身高、是 否经常参加体育锻炼、家庭所在地是在南方还是在北方等 等。部分数据如教材中的表所示(1代表男性,0代表女性) 父亲身高、母亲身高、性别是不是影响子女身高的主要 因素呢?如果是,子女身高与这些因素之间能否建立一个 线性关系方程,并根据这一方程对身高做出预测? 这就是本章将要讨论的多元线性回归问题
b1,b2,,bk称为偏回归系数
bi 表示假定其他变量不变,当 xi 每变 动一个单位时,y 的平均变动值
10 - 10
2015-7-1
统计学
STATISTICS (第四版)
二元回归方程的直观解释
y b 0 b1 x1 b 2 x2
(观察到的y)
二元线性回归模型 y
b0
2015-7-1
10 - 25
统计学
STATISTICS (第四版)
线性关系检验
H0:b1b2bk=0 线性关系不显著 H1:b1,b2, bk至少有一个不等于0
1. 提出假设
2. 计算检验统计量F
3. 确定显著性水平和分子自由度k、分母自由度nk-1找出临界值F 4. 作出决策:若F>F ,拒绝H0
10 - 22 2015-7-1
统计学
STATISTICS (第四版)
估计标准误差 Se
1. 对误差项的标准差 的一个估计值 2. 衡量多元回归方程的拟合优度 3. 计算公式为
输出结果
10 - 23 2015-7-1
10.2 拟合优度和显著性检验 10.2.2 显著性检验
统计学
STATISTICS (第四版)
10 - 9
2015-7-1
统计学
STATISTICS (第四版)
多元线性回归方程
(multiple linear regression equation)
1. 描述因变量 y 的平均值或期望值如何依赖 于自变量 x1, x2 ,…,xk的方程 2. 多元线性回归方程的形式为 E( y ) = b0+ b1 x1 + b2 x2 +…+ bk xk
t>t2,拒绝H0; t<t2,不拒绝H0 输出结果
2015-7-1
10 - 28
统计学
STATISTICS (第四版)
回归系数的推断
(置信区间)
回归系数在(1-)%置信水平下的置信区间为
ˆ t (n k 1)s ˆ b i 2 b
回归系数的 Fra Baidu bibliotek样标准差
i
输出结果
10.2 拟合优度和显著性检验
10.2.1 回归方程的拟合优度 10.2.2 显著性检验
10.2 拟合优度和显著性检验 10.2.1 回归方程的拟合优度
统计学
STATISTICS (第四版)
多重判定系数
(multiple coefficient of determination)
1. 回归平方和占总平方和的比例 2. 计算公式为
统 计 学 数据分析
(方法与案例)
作者 贾俊平
统计学
STATISTICS (第四版)
统计名言
好的模型选择可遵循一个称为奥克 姆剃刀(Occam’s Razor)的基本原理: 最好的科学模型往往最简单,且能 解释所观察到的事实。
——William Navidi
10 - 2 2015-7-1
第 10 章 多元线性回归
10.1 10.2 10.3 10.4 10.5 多元线性回归模型 拟合优度和显著性检验 多重共线性及其处理 利用回归方程进行预测 哑变量回归
统计学
STATISTICS (第四版)
学习目标
多元线性回归模型、回归方程与估计的回 归方程 回归方程的拟合优度与显著性检验 多重共线性问题及其处理 利用回归方程进行预测 哑变量的回归 用Excel和SPSS进行回归分析
0
ˆ bi b i
(i 1, 2, ,k )
2015-7-1
统计学
STATISTICS (第四版)
参数的最小二乘法
(例题分析)
【例10-1】一家商业银行在多个地区设有分行,其业务主要 是进行基础设施建设、国家重点项目建设、固定资产投资 等项目的贷款。近年来,该银行的贷款额平稳增长,但不 良贷款额也有较大比例的提高,这给银行业务的发展带来 较大压力。为弄清楚不良贷款形成的原因,希望利用银行 业务的有关数据做些定量分析,以便找出控制不良贷款的 办法。试建立不良贷款 y 与贷款余额 x1 、累计应收贷款 x2 、贷款项目个数x3和固定资产投资额x4的线性回归方程, 并解释各回归系数的含义