第四章 线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 4 章 线性回归分析
线性回归(Linear Regression),是利用数理统计中回归分析,来确定两种或两 种以上变量间相互依赖的定量关系的一种统计分析方法,在统计学中,线性回归 是利用线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进 行建模的一种回归分析。线性回归是回归分析中第一种经过严格研究并在实际应 用中广泛使用的类型,这是因为线性依赖于其未知参数的模型比非线性依赖于其 位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定,运用十 分广泛。
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变 量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍 多元线性回归的一些基本问题。
4.1 多元线性回归分析
4.1.1 多元线性回归定义
在客观世界中普遍存在着变量之间的关系。变量之间的关系一般来说可分为 确定性与非确定性的两种。确定性关系是指变量之间的关系可以用函数关系来表 达的。另一种非确定性的即所谓的相关关系。例如人的身高与体重之间存在着关 系,一般来说,人高一些,体重也要重一些,但同样高度的人,体重往往不相同。 人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同,气象中的 温度与湿度之间的关系也是这样的。这是因为我们涉及的变量(如体重、血压、 湿度)是随机变量,上面所说的变量关系是非确定性的。此时,便可以用到回归 分析。回归分析能帮助我们从一个变量取得的值去估计另一个变量所取得的值。
写成矩阵形式: 其中
Yn 0 1Z1n k Zkn n Y Zˆ
(4-2)
Y1
1 z11 z21
zk1
Y
Y2
,
Z
1
z12
z12
z12
Yn
1 z1n z2n
zkn
0
1
,
k
ˆ0
ˆ
ˆ1
,
ˆk
0
1
n
4.1.2.2 模型假设 因为多元线性模型的建立过程包含相当的主观性,所依据的理论和经验可能
示第 i 期观察值 (Yi , z1i , z2i , , zki ),i 1, 2, , n 。
2
假设多元样本回归函数为:Yˆi ˆ0 ˆ1Z1i ˆ2Z2i ˆ3Z3i ˆk Zki ,回归残
差为: i Yi Yˆi 。 由于有 n 期的观察值,这一模型实际上包含 n 个方程: Y1 0 1Z11 k Zk1 1 Y2 0 1Z12 k Zk 2 2
4.1.2 多元线性回归模型
4.1.2.1 模型的建立及矩阵表示 多元线性回归模型的一般形式是:
Y 0 1Z1 2Z2 3Z3 kZk
(4-1)
其中 j ( j 1, 2, , k) 是回归系数,Y 是被解释变量,z1i , z2i , , zkiFra Baidu bibliotek是 k 个对Y 有显
著影响的解释变量 (k 2) ,i 是反映各种误差扰动综合影响的随机项,下标 i 表
线性回归有很多实际用途。分为以下两大类: (1)如果目标是预测或者映射,线性回归可以用来对观测数据集的和 X 的值 拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的 X 值,在没 有给定与它相配对的 y 的情况下,可以用这个拟合过的模型预测出一个 y 值。 (2)给定一个变量 y 和一些变量 x1, , xP ,这些变量有可能与 y 相关,线性回 归分析可以用来量化 y 与 x j ( j 1, , P) 之间相关性的强度,评估出 y 与不相关的 x j ( j 1, , P) ,并识别出哪些 x j ( j 1, , P) 的子集包含了关于 y 的冗余信息。
Yi 0 1X1i 2 X2i 3X3i k Zki i ,其中 i 是随机误差项。
(2) 对应每组观测数据的误差项 i ,都为零均值的随机变量,即 i 的数学期
望 E(i ) 0(i 1,2, , n) 。
3
(3) 误差项 i 的方差为常数,即 Var(i ) E[(i E(i ))( j E( j ))] E(i2) 2 ,对 i 2,1 , n 都成立(假设
Y f (x) 其中 f (x) 为当 X x 时,因变量Y 的均值,即
f (x) E(Y X x) 称 f (x) 为Y 对 X 的回归函数, 为Y 与 f (x) 的偏差,它是随机变量,并假定 E( ) 0 。回归函数可以是一元函数,也可以是多元函数,即
Y f (x1, x2, , xm) 其中 f ( x1, x2, , xm ) E(Y X1 x1, X2 x2 , , Xm xm )为 m 元回归函数,统称为 多元回归函数。
不正确,因此并不能保证模型符合变量的实际关系。而如果模型本身有问题,那 么分析的有效性和价值就很难有保证,为了保证所分析的变量关系符合多元线性 回归分析的基本规律性,明确分析对象,保证回归分析的有效性和性质,也为了 检验判断的依据,需要对多元线性回归模型作一些假设,共包括下列六条:
(1) 变 量 Yi 和 X1i , X2i , , Xki,(i 1, 2, , n) 之 间 , 存 在 线 性 随 机 函 数 关 系
(2)成立为前提)。 (4) 对应不同观测数据的误差项不相关,即
Cov(i , j ) E[(i E(i ))( j E( j ))] E(i j 0) 对任意的 i j 都成立(假设(1) 成立为前提)。
(5) 解释变量 Xi (i 1, 2, ,r)是确定性变量而非随机变量。当存在多个解释 变量 (r 1) 时假设不同解释变量之间不存在线性关系,包括严格的线性关系和强 的近似线性关系。
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上, 一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同预测或估计 因变量,比只用一个自变量进行预测或估计更有效、更符合实际。因此多元线性 回归比一元线性回归的实用意义更大。
1
在研究问题时,我们考虑一个变量受其他变量的影响时,把这变量称为因变 量,记为Y ,其他变量称为自变量,记为 X ,这时相关系数可记作:
相关文档
最新文档