第九讲多元线性回归总结
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、线性回归模型与分析步骤
Observed = Structural + Stochastic
observed代表因变量,Structural代表自变
量与因变量的关系,Stochastic是不能被解释的
随机成分。
随机部分又可以划分为三部分内容:1)省略
的结构因子;2)测量误差;3)随机误差。
X )0 2 (Yi 2 1 i X )0 2 X i (Yi 2 1 i n X iYi X iYi
2
n X i2 ( X i ) 2
Y X 1 2
五、回归系数的解释
回归系数具有“偏”或“边际”的意义
5、 多重共线性检验
在多元回归模型参数b的求解过程中,要求自变量x1, x2,…,xk线性无关,才可求出各个参数的唯一解。如 果在回归方程:
ˆ b0 b1x1 b2 x2 y
x2 c0 c1 x1
当x1、x2完全线性相关,方程就会有许多解,从而 无法用最小二乘法求出唯一b的估计值。
如果没有回归方程,对y的估计只能采用平均值进 行估计。例如,15个人的月食品支出的均值 =(1/15) ΣYi=280),用它估计第10个人的食品支出,误差为:
y10 y =310-280=30 元
例1、以食品支出与收入关系为例,说明一元线性回归系数估计值的具体计算 过程。
编号
2
X
Y
XY
(4)同方差性:对于任意给定的xi,误差项有相同的 方差:
Var ( i / xi ) 2
(5)误差的独立性:误差项与自变量不相 关;误差项之间不相关,即对于两个观察 值i和j,其误差项的协方差为0。 (6)正态性:误差项被看作是许多不被观 察因素的联合效果,误差项是在x条件下的 正态分布。
第九讲 多元线性回归分析
一、概念
1.“回归”(或作“回归”)一词最早由 Francis Galton所使用。他曾对亲子间的身高 做研究,发现父母的身高虽然会遗传给子女, 但子女的身高却有逐渐“回归到中等(即人的 平均值)”的现象。 2. 回归分析(Regression Analysis)是一种分 析数据的统计学方法,目的在于了解两个或多 个变量间是否相关、相关方向与强度,并建立 数学模型进行解释和预测。
四、线性回归模型的估计
回归分析的主要任务就是要建立能够近似 反映真实总体特征的样本回归函数。 根据样本资料确定回归方程时,总是希望Y 的估计值尽可能地接近实际观察值,即残差项 的总量越小越好。 由于残差项有正有负,简单的代数加减会 相互抵消,因此,为了数学上便于处理,通常 2 采用残差平方和 i 作为衡量总偏差的尺度。
R2
2 ˆ ( y y ) 2 ( y y )
复相关系数等于决定系数的平方根。
复相关系数R反映因变量与自变量之间的相关
程度,而决定系数反映自变量对因变量的解释程
度。
偏相关系数可以检验在控制了其他变量后, 某一变量xi与 y 是否确有相关关系及关系的强弱, 是研究与判断变量是否重要的尺度。
如何判断和检验方程中存在多重共线性?
A.方程中因变量与自变量的相关系数很高, 但自变量的回归系数均不显著; B.自变量之间的相关系数很高;
C.分别构造不含某一自变量的k-1回归模型, 将它们与包括所有自变量的回归模型进行比较, 若两个模型的相关系数很接近,就表明该变量 对与解释y是多余的。
最小二乘法就是通过使残差平方 和为最小来估计回归系数的一种方 法。
2 Q (Yi Y i ) 2 i 2 (Yi 1 2 X i )
根据微积分中求极小值的原理,可知 Q 存在极小值,欲使Q 达到最小,Q对 1和2的偏导数等于零
ˆ10 y y
=291.3-280=11.3
增加了解释变量后,减少了对y的预测误差。上面三式可写为:
ˆ) ( y ˆ y) ( y y) ( y y
可以证明: ˆ )2 ( y ˆ y )2 ( y y )2 ( y y 对n个观察值而言, ( y y )2 为总平方和 TSS=
假定自变量与因变量之间关系特征是线性的,需要 估计未知参数和系数。结构部分用符号表示为:
yi 0 1 xi1 k xik K xiK i
0 1 yi xi i [1xi1 xi 2 xik ] 2 i K
多重共线性可以通过自变量的容忍度 (tolerance)、方差膨胀因子(VIF)等 指标来衡量。
容忍度是指如果某个自变量与其他自 变量有较小的复相关系数,那么其有较大 的容忍度。容忍度的倒数称为方差膨胀因 子。
六、非线性回归模型的变量转换
G B0 BU 1 1 B2U 2 BkU k
X2
1040400 921600 940900
Y2
72900 67600 62500
1 2 3
1020 960 970
270 260 250
275400 249600 242500
4
5 6 7 8
1020
910 1580 540 830
280
270 360 190 260
285600
245700 568800 102600 215800
4、标准化回归系数
在多元回归分析中,为了分清k个自变量对y 的影响的主次关系,需要比较各个因素的回归系 数b1,b2,…bk绝对值的大小。但是将这些回归 系数直接进行比较是不行的,因为它们的值分别 与各个变量所取的单位有关。在测量单位不一致 时,便不存在可比性。
解决的办法是将所有自变量Xj和因变量Yj进 行标准化,取得标准化变量:
如果先将所有自变量Xj和因变量Yj进行标准化,取得标准化变量:
zj zy
xj xj sj y y sy
,
再进行回归便可以得到标准化回归方程:
z y 1z1 2 z2 k zk
由于标准化消除了原来自变量不同的测量单位,于是βj之间 可以互相比较,它们的绝对值的大小就代表了各自对y作用的大小。
i 100.08 0.1802 X Y i
如果应用收入信息并借助回归方程估计食品支出, 第10个人的收入为1060元,由回归方程式,有:
ˆ10 =100.08 + 0.1802×1060=291.3 y
于是用
ˆ10 估计第10人的食品支出的误差为: y
ˆ10 = 310-291.3=18.7 e10 y10 y ˆ10 解释y均值的部分为 y
其中G是Y的函数,G=G(Y); U1,U2,…Uk是X1,X2…,Xk的一般函数,一个模型写成上 式,就可以用前述方法求解出参数估计b0,b1,b2……bk。 下面是几个变量变换的例子。
1、乘法模型:
Y B0 X
B 1 1
X
RSS= ESS=
ˆ y) ( y
2
为回归平方和
2
ˆ ) 为残差平方和 ( y y
总平方和可以分解为两部分: 回归平方和RSS,它是由 x的变化而引起的,反映由 于 x与 y的线性关系而产生的 y的变化,是回归方程所能 解释的部分,我们希望回归平方和越大越好。 残差平方和ESS,它是除了x1,x2…xk 对 y 影响之 外的其它一切因素对 y 总平方和的作用,我们希望残差 平方和越小越好。 回归平方和占总平方和的比例为决定系数。
3.回归分析的二种概念体系
(1)Observed =True Mechanism + Disturbance (2)Observed = Summary + Residual
第一种解释要求建立能够更好拟合数据的模型,揭示
数据的关系。 第二种解释要求模型简约,即如果两个模型同样能够 反映被观察的事实,应该选择较简单的模型。 第二种解释更加关注模型是否揭示事实或反映理论。
t
bj B j sj
其中se为b的标准误,服从t分布。将计算的P值与事先 确定的显著水平α比较,便可决策取舍H0。当P<α时拒绝H0, 认为回归系数在α水平上统计显著;否则接受H0。
(2)回归系数不显著的原因 a、样本量太小,或者变量个数较多,使n-k变小, 从而使Sj增大,t值变小。 b、 xj与方程中的其他变量线性相关。当自变量之 间的相关系数增大时,也使Sj变大。 C、 y与xj虽然关联,但却是非线性关系。 d、 y与xj确实不存在显著的线性关系,至少在样 本xj的变化范围内如此。 因此,增加样本量、扩大Xj的变化范围以及在方程中 减少与xj高度相关的变量,就有可能改善xj与y的线性关 系的显著程度。
(1) t检验
当回归方程检验显著时,便可认为回归方程 中至少有一个回归系数是显著的,但是并不一定 所有的回归系数都显著,我们希望在方程中保留 最重要的变量,删除不显著的变量,为此必须对 每个变量的回归系数进行t检验。
假设:H0:Bj=0;H1:Bj≠0 当统计性不显著,便接受H0,认为总体中变量Xj与Y 的线性关系不显著,进而从回归方程中删除Xj。反之则反 是。在回归分析的假设条件下,检验公式为:
线性回归分析的基本步骤:
(1)从理论出发确定回归方程中的自变量与因变
量。
(2)从样本数据出发确定自变量和因变量之间的 数学关系式,即建立回归方程。 (3)对回归方程进行各种统计检验。 (4)利用回归方程进行解释或预测现象。
源自文库
三、线性回归模型的基本假定
(1)线性性:yi与xi通过参数i建立线性关系。 (2)独立性:变量xi之间是相互独立的。 (3)误差项的条件均值为0, E(i / xi ) 0
2、总体回归方程显著性的F检验
检验回归方程就是检验样本y与x1,x2,…,xk的线
性关系是否显著,即判断能否肯定总体回归系数中至少
有一个不等于0。
原假设H0:B1=B2=……=Bk=0 备择假设为H1:至少有一个Bj≠0(j=1,2,…,k)
通过样本统计量的检验,如果H0被接 受,则认为Y与X1,…,Xk的线性关系不显 著;反之,则拒绝H0,接受H1,即认为Y与 方程中的变量存在显著的线性关系,称方 程是显著的。 检验统计量是F检验,F检验的计算需 借助回归方差分析表。
E ( y / x) x k xk xk
这里的“偏”或“边际”是指在其他变量保 持不变的情形下,y对x线性关系的斜率。由于模 型是线性的,偏回归系数是一常数。
六、线性回归方程的统计检验
1、决定系数R 方——拟合优度检验
用于检验一个解释性或者预测性的方程效果如何,
即回归方程在多大程度上解释了因变量的变化。
381300
328600 438600 524400 218700 257600 128000 4463200
1512900
1123600 1664100 1904400 656100 846400 409600 16365400
96100
96100 115600 144400 72900 78400 40000 1231100
1040400
828100 2496400 291600 688900
78400
72900 129600 36100 67600
9
10 11 12 13 14 15 合计
1230
1060 1290 1380 810 920 640 15160
310
310 340 380 270 280 200 4230
回归方差分析表
来源 自由度DF 平方和
SUM OF SQUARES
均方和
MEAN SQUARE
F值
显著性水平
SIG
回归平方和
k
RSS
RSS/k
( RSS / k ) [ ESS / n k 1)]
F的概率α
残差平方和
n-k-1
ESS
ESS/(n-k-1)
总平方和
n-1
TSS
3、回归方程系数的t检验