第四章 线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
Var ( B ) Var[( Z Z ) 1 Z Y ] Var[( Z Z ) 1 Z ( Z )] Var[ ( Z Z ) 1 Z ] Var[( Z Z ) 1 Z ] ( Z Z ) 1 Z Var[ ][( Z Z ) 1 Z ] ( Z Z ) 1 Z 2 [( Z Z ) 1 Z ] ( Z Z ) 1 2
E ( B ) E[( Z Z ) 1 Z Y ] E[( Z Z ) 1 X ( X )] E[ ( Z Z ) 1 Z E ( )] ( Z Z ) 1 Z E ( )
(3)最小方差性: 根据最小二乘估计公式和模型假设,可以直接导出包含各个参数估计量方 差和不同参数估计量协方差的,参数估计向量 B 的协方差矩阵为:
V 2 (Y XB)(Y XB) Y Y BX Y Y XB BX XB
i
求 V 对 b0 ,
, bk 的偏导数,等价于 V 对向量 B 求梯度,因此最小二乘估计的正规
5
方程组为:
V b 0 BV 2 Z 2 Z ZB 0 V b0n
写成矩阵形式:
k Z k 1 1 k Zk 2 2 k Z kn n
ˆ Y Z
其中
(4-2)
zk 1 Y1 1 z11 z21 Y2 1 z12 z12 z12 Y ,Z zkn Yn 1 z1n z2 n ˆ 0 0 0 ˆ ˆ 1 , 1 1 , ˆ k n k
Y 0 1Z1 2 Z2 3Z3 k Zk
(4-1)
, zki 是 k 个对 Y 有显
其中 j ( j 1,2,
, k ) 是回归系数,Y 是被解释变量, z1i , z2i ,
著影响的解释变量 (k 2) , i 是反映各种误差扰动综合影响的随机项,下标 i 表 示第 i 期观察值 (Yi , z1i , z2i ,
, k 的最小二乘估计。
, bk 的唯一的
4.1.3.2 最小二乘估计的矩阵形式 引进参数估计量,解释变量回归值和回归残差的下列向量表示:
ˆ Y b0 0 0 b ˆ Y 1 ˆ 1 B ,Y , 1 Y ˆ bk n n
4.1.2.2 模型假设 因为多元线性模型的建立过程包含相当的主观性, 所依据的理论和经验可能 不正确,因此并不能保证模型符合变量的实际关系。而如果模型本身有问题,那 么分析的有效性和价值就很难有保证, 为了保证所分析的变量关系符合多元线性 回归分析的基本规律性,明确分析对象,保证回归分析的有效性和性质,也为了 检验判断的依据,需要对多元线性回归模型作一些假设,共包括下列六条: (1) 变 量 Yi 和 X1i , X 2i ,
2[Y (b
i i
i
0
2[Y (b
i i
0
同时成立时, V 有最小值。对这个方程组整理,可得到如下的正规方程组:
4
b0 Y (b1 z1 S11b1 S12b2 S K 1b1 S K 2b2
其中:
bK z K ), S1K bK S10 , S KK bK S K 0 ,
把样本数据分别代入样本回归方程,得到回归方程组为:
ˆ b bz Y 1 0 1 11 ˆ b bz Y n 0 1 1n bk zk 1 ,
(4-4)
(4-5)
bk zkn
写成等价的向量方程,则为:
ˆ ZB Y
这样回归残差向量为:
ˆ Y ZB Y Y
再利用向量,矩阵的运算法则,可以得到残差平方和为:
第 4 章 线性回归分析
线性回归(Linear Regression),是利用数理统计中回归分析,来确定两种或两 种以上变量间相互依赖的定量关系的一种统计分析方法,在统计学中,线性回归 是利用线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进 行建模的一种回归分析。 线性回归是回归分析中第一种经过严格研究并在实际应 用中广泛使用的类型, 这是因为线性依赖于其未知参数的模型比非线性依赖于其 位置参数的模型更容易拟合, 而且产生的估计的统计特性也更容易确定,运用十 分广泛。 多元线性回归的基本原理和基本计算过程与一元线性回归相同, 但由于自变 量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍 多元线性回归的一些基本问题。
1
在研究问题时, 我们考虑一个变量受其他变量的影响时,把这变量称为因变 量,记为 Y ,其他变量称为自变量,记为 X ,这时相关系数可记作:
Y f ( x)
其中 f ( x ) 为当 X x 时,因变量 Y 的均值,即
f ( x) E (Y X x)
称 f ( x ) 为 Y 对 X 的回归函数, 为 Y 与 f ( x ) 的偏差,它是随机变量,并假定
E ( ) 0 。回归函数可以是一元函数,也可以是多元函数,即
Y f ( x1, x2 ,
, xm )
其中 f ( x1 , x2 ,
, xm ) E (Y X1 x1 , X2 x2 ,
, Xm xm ) 为 m 元回归函数,统称为
多元回归函数。 线性回归有很多实际用途。分为以下两大类: (1)如果目标是预测或者映射,线性回归可以用来对观测数据集的和 X 的值 拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的 X 值,在没 有给定与它相配对的 y 的情况下,可以用这个拟合过的模型预测出一个 y 值。 (2)给定一个变量 y 和一些变量 x1 , 归分析可以用来量化 y 与 x j ( j 1,
Sk 0 ( zki zk )(Yi Y ), k , i 1,
i
, K,
Skj ( zki zk )( z ji z j ), k , i 1,
i
, K,
上述正规方程组有 K 1 个方程,未知数也是 K 1 个。只要系数矩阵非奇异 即满足解释变量矩阵 Z 列满秩: R(ZZ) k , ZZ 可逆。可以解出 b0 , 一组解,就是 0 ,
, Xki ,(i 1,2, , n) 之 间 , 存 在 线 性 随 机 函 数 关 系
Yi 0 1 X1i 2 X 2i 3 X 3i
k Zki i ,其中 i 是随机误差项。
(2) 对应每组观测数据的误差项 i ,都为零均值的随机变量,即 i 的数学期 望 E ( i ) 0(i 1,2,
, n) 。
3
(3) 误差项 i 的方差为常数,即 对 i 2 Var( i ) E[( i E ( i ))( j E ( j ))] E ( i2 ) 2 , ,1 , (2)成立为前提)。 (4) 对应不同观测数据的误差项不相关,即
n 都成立(假设
Cov( i , j ) E[( i E ( i ))( j E ( j ))] E ( i j 0) 对任意的 i j 都成立(假设(1)
整理得到矩阵形式: Z ZB ZY 当 X X 可逆,也就是 X 是满秩矩阵,在上述向量方程两端左乘 X X 的逆矩 阵,得到:
B ( Z Z )1 Z Y
(4-6)
这就是多元线性回归模型最小二乘估计的矩阵一般形式。 4.1.3.3 最小二乘估计量的性质 (1)线性性: 多元线性回归模型参数的最小二乘估计量为: B ( Z Z )1 Z Y ,各个参数的 最小二乘估计量为 bk [( zz )1 z]k 1Y ,其中的 [( zz )1 z ]k 1 是矩阵 ( zz )1 z 的 k 1 行元素构成的行向量, 上式对 k 1,2,
另 V 对 b0 ,
bk zki )]2
(4-3)
, bk 的一阶偏导数都等于 0,即下列方程组:
2[Y (b
i
0
b1 z1i b1 z1i b1 z1i
bk zki )]( 1) 0, bk zki )]( z1i ) 0, bk zki )]( zki ) 0
, zki ), i 1,2,
2
,n 。
ˆ ˆZ ˆ Z ˆZ ˆ 假设多元样本回归函数为:Y i 0 1 1i 2 2i 3 3i
ˆ。 差为: i Yi Y i
由于有 n 期的观察值,这一模型实际上包含 n 个方程:
百度文库
ˆ Z ,回归残 k ki
Y1 0 1Z11 Y2 0 1Z12 Yn 0 1Z1n
4.1 多元线性回归分析
4.1.1 多元线性回归定义
在客观世界中普遍存在着变量之间的关系。 变量之间的关系一般来说可分为 确定性与非确定性的两种。 确定性关系是指变量之间的关系可以用函数关系来表 达的。 另一种非确定性的即所谓的相关关系。例如人的身高与体重之间存在着关 系,一般来说,人高一些,体重也要重一些,但同样高度的人,体重往往不相同。 人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同,气象中的 温度与湿度之间的关系也是这样的。这是因为我们涉及的变量(如体重、血压、 湿度)是随机变量,上面所说的变量关系是非确定性的。此时,便可以用到回归 分析。回归分析能帮助我们从一个变量取得的值去估计另一个变量所取得的值。 在回归分析中, 如果有两个或两个以上的自变量, 就称为多元回归。 事实上, 一种现象常常是与多个因素相联系的, 由多个自变量的最优组合共同预测或估计 因变量,比只用一个自变量进行预测或估计更有效、更符合实际。因此多元线性 回归比一元线性回归的实用意义更大。
, xP ,这些变量有可能与 y 相关,线性回
, P) 之间相关性的强度, 评估出 y 与不相关的
x j ( j 1,
, P) ,并识别出哪些 x j ( j 1,
, P) 的子集包含了关于 y 的冗余信息。
4.1.2 多元线性回归模型
4.1.2.1 模型的建立及矩阵表示 多元线性回归模型的一般形式是:
, K 都成立, bk 正是被解释变量观测值 Yi 的
线性组合,也就是多元线性回归参数的最小二乘估计是线性估计。 (2)无偏性: 多元线性回归的最小二乘估计也是无偏估计, 即参数最小二乘估计的数学期 望都等于相应参数的真实值, 最小二乘估计向量的数学期望等于参数真实值的向 量,参数真实值是参数估计量的概率分布中心。
成立为前提)。 (5) 解释变量 X i (i 1, 2,
, r ) 是确定性变量而非随机变量。当存在多个解释
变量 ( r 1) 时假设不同解释变量之间不存在线性关系, 包括严格的线性关系和强 的近似线性关系。 (6) 误差项 i 服从正态分布。
4.1.3 多元线性回归参数估计
4.1.3.1 最小二乘估计和正规方程组 这里直接根据回归残差平方和最小的准则, 推导多元线性回归模型参数的最 小二乘估计量。 对于多元线性回归模型 Y 0 1Z1 2 Z2 3Z3 如 果 用 b0 ,
k Zk ,
, bk 分 别 表 示 模 型 参 数 0 ,
, k 的 估 计 , 那 么 样 本 回 归 方 程 是
ˆ b bz b z b z Y 0 1 1 2 2 3 3
bk zk ,回归残差平方和为:
V i2 [Yi (b0 b1z1i