第五章 多元线性回归分析
回归分析法
1
§5-1 一元线性回归
一、什么叫回归分析
(一)两种不同类型的变量关系、函数与相关
简单的说,回归分析就是一种处理变量与变量之间关系的 数学方法。 例:自由落体运动中,物体下落的距离S与所需时间t之间,有 如下关系
S
1 2 gt 2
(0 t T )
2
变量S的值随t而定,这就是说,如果t给了固定值, 那么S的值就完全确定了 这种关系就是所谓的函数关系或确定性关系
(二)相关系数检验法
由U ( yi y ) U [(a bxi ) (a b x )]2
2 i=1 N i=1 N ^ _ N _
b ( xi x) 2
2 i=1
_
代入 Lyy [( yi yi ) ( yi y )]2整理后可得
i=1
23
相关系数临界值表 n-2 0.05
1 2 3 4 5 6 7 8 9 10
0.01
1.000 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.708
n-2 0.05
11 12 13 14 15 16 17 18 19 20
0.01
0.684 0.661 0.641 0.623 0.606 0.590 0.575 0.561 0.549 0.537
6
设y* a bx是平面上的一条任意直线,(xi , yi )(i 1,2, ..., N )是变量x,y的一组观测数据。 那么,对于每一个xi,在直线y* a bx上确可以确定一 个yi a bxi的值,yi 与xi处实际观测值yi的差: yi yi yi (a bx) 就刻画了yi与直线偏离度
第5章多元线性回归模型PPT课件
在原假设H0成立的情况下,服从自由度为(k-1 , n-k)的F分布,并根据样本数据计算F值。
给定显著性水平,得到临界值F(k-1,n-k) 比较 F F(k-1,n-k) 或 FF(k-1,n-k) 来拒绝或接受原假设H0,以判定原模型总体上的 线性关系是否显著成立。
假定2 解释变量X是非随机变量,在重复抽样 中固定在给定水平。
假定3 随机误差项的条件期望为0 即: E(ui | X 2i , X 3i ) 0
第2页/共49页
假定4 随机误差项ui具有同方差性。
Var(ui X2i , X3i ) 2 假定5 随机误差项之间无自相关性/无序列 相关。
cov(ui ,uj ) o i j
第12页/共49页
总体方差的估计
ˆ 2 uˆi2 n3
• 残差平方和的自由度=样本容量的大小-待估计的参数的个数
第13页/共49页
§5.3 多元线性回归模型的统计检验
一、拟合优度检验 (一)复判定系数R2的计算公式
R2 ESS TSS
yˆi2 ˆ2
yi2
yi x2i ˆ3
yi2
~
F(m, n
kUR
)
案例
第33页/共49页
案例分析
• 教材P250 1960-1982年美国子鸡需求的例子
• 思考问题:
1)如何根据经济理论预测回归系数的符号?
2)如何检验
?
H0 : 4 5 0
第34页/共49页
五、模型的参数稳定性检验-邹至庄检验
当利用时间序列数据进行回归时,因变量和 解释变量之间的关系可能会出现结构变动
5_多元线性回归分析
……
n xn yn
y
εi 。。
。。。(。x。i, yi)。。。 。。
。
。。
x
0
一元线性回归模型
模型: yi=α+ β xi + εi
(i=1,2…n)
数据的假设条件:
1. 因变量是连续随机变量; 2. 自变量是固定数值型变量,且相互独立; 3. 每一个自变量与因变量呈线性关系; 4. 每一个自变量与随机误差相互独立; 5. 观察个体的随机误差之间相互独立; 6. 随机误差{ei}~N(0,σ)。
• 在模型中添加x变量的方法和向前选择法相同,从模型 中消去x变量的方法和向后消去法相同。
• 添加和消去x变量的顺序原则是,在每添加一个新的x 变量之前,首先用向后消去法原则消去模型内所有超 出停留允许水平的x 变量,然后用向前选择法原则在模 型中添加一个新的x变量。
• 逐步过程法和向前选择法的不同之处是,已经进入模 型的x变量还可以再次从模型中退出;逐步过程法和向 后消去法的不同之处是,已经从模型中消去的x变量还 可以再次进入模型中。
数学模型:
其中:{yi}和{xij}是因变量y和自变量xj 的观察值; β0, β1…βk是待估计的偏回归系数; e i 是yi 的随机误差,且{ei }~N(0,σ)。
一元线性回归分析的数学模型
id x
y
------------------------
1 x1 y1
2 x2 y2
……
i xi yi
data d;
input id x1-x3 y ; cards; 1 1.0 2.3 3.4 10 2 2.1 2.5 3.8 15 3 3.2 3.3 3.8 20 4 4.2 3.9 4.2 22 5 4.8 4.2 5.0 28 run ;
第5章多元线性回归分析1
样本,可表示为
Y 1 1 2 X 2 1 3 X 3 1 ... k X k 1 u 1
Y 2 1 2 X 2 2 3 X 3 2 ... k X k 2 u 2
Y n 1 2 X 2 n 3 X 3 n ... k X k n u n
相关系数,即全部自变量参与回归的总体相
关系数,Rmxi 为去掉xi 的复相关系数。可见
部分相关系数的平方是在总体拟合效果中扣 除了其他变量综合拟合效果之后剩余部分。
15
16
多元线性回归模型
●多元线性回归模型及古典假定 ●多元线性回归模型的估计 ●多元线性回归模型的检验
17
§5.1多元线性回归模型及古典假定
j 个解释变量的单位变动对应变量平均值的影响。
20
多元线性回归
指对各个回归系数而言是“线性”的,对变量则 可是线性的,也可是非线性的 例如:生产函数
YALKu
取自然对数
l n Y ln A l n L l n K l n u
21
多元总体回归函数
Y 的总体条件均值表示为多个解释变量的函数
因为 Xe=0 ,则正规方程为:
XXβˆ =XY
32
OLS估计式
由正规方程 多元回归中 二元回归中
XXβˆ =XY ( X X ) k k 是 满 秩 矩 阵 ,其 逆 存 在
βˆ=(XX)-1XY
ˆ1Y-β ˆ2X2-β ˆ3X3
ˆ2(
yix2 i)( x3 2 i)-( yix3 i)( x2 ix3 i) ( x2 2 i)( x3 2 i)-( x2 ix3 i)2
第五 多重共线性(共54张PPT)
▪ 但是应注意:
▪ 如果研究的目的仅在于预测被解释变量Y,而各个解释变量X之间的 多重共线性关系的性质在未来将继续保持,这时虽然无法精确估计 个别的回归系数,但可估计这些系数的某些线性组合,因此多重共 线性可能并不是严重问题。
第三节 多重共线性的检验
多重共线性检验的任务是:
1)检验多重共线性是否存在;
4、变量的显著性检验失去意义
存在多重共线性时
参数估计值的方差与标准差变大
容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断
可能将重要的解释变量排除在模型之外
5、模型的预测功能失效
▪ 变大的方差容易使区间预测的“区间”变大,使预测
失去意义。
▪其次,由于参数估计量的方差变大,因而对样本值的 反映十分敏感,即当样本观测值稍有变化时,模型参数 就有很大差异,致使模型难以应用。
2)估计多重共线性的范围,即判断哪些变量之间存在
共线性。
一、 检验多重共线性是否存在
1.简单相关系数检验法
利用解释变量之间的线性相关程度去判断是否存在严重多重 共线性的一种简便方法。
一般而言,如果每两个解释变量的简单相关系数比较高,如 大于0.8,则可认为存在着较严重的多重共线性。
注意 较高的简单相关系数只是多重共线性存在的充分条件, 而不是必要条件。特别是在多于两个解释变量的回归模型中, 有时较低的简单相关系数也可能存在多重共线性。因此并不 能简单地依据相关系数进行多重共线性的准确判断。
如果拟合优度变化显著,则说明新引入的变量是一个独立的解释 变量;
如果拟合优度变化很不显著,则说明新引入的变量不是一个独立 的解释变量,它可以用其他变量的线性组合代替,也就是说它与其 他变量之间存在多重共线性。
计量经济学第5章多元线性回归模型PPT课件
在命令栏中输入命令:ls y c x1 x2回车后即得到 估计的结果:
第25页/共53页
估计的回归方程为:
Yˆt 1688.174 0.288774X1t 12.82854X 2t
这个回归结果说明,在价格指数保持不变的条件下, 平均工资增加1元,消费水平增加约0.29元;在平 均工资不变的条件下,价格指数每增加一个百分点, 消费水平会增加约12.83元。 由这个结果可以得到,价格指数对消费的影响程度 是较高的。
Y1 1 X11 X 21 ... X k1 0 u1
Y2
1
X 12
X 22
...
X
k
2
1
u
2
... ... ... ... ... ... ..(. 5-2.8..)
Yn
1
X 1n
X 2n
...
X
kn
k
u
n
其中
Y1
1
Y
Y2
X
1
X 11 X 12
... ... ...
式(5-21)、(5-22)、(5-23)称为正规方程, 由其组成的方程组称为正规方程组。
第14页/共53页
可从中解出诸 ˆ j :
ˆ0 Y ˆ1X1 ˆ2 X 2
ˆ1
yi x1i
x
2 2i
yi x2i
x1i x2i
x12i x22i ( x1i x2i ) 2
ˆ2
第27页/共53页
(1)各变量的均值在回归直线上
由式(5-24)即得: Y ˆ0 ˆ1X1 ˆ2 X2 (2)Y估计值的均值等于Y的实际值的均值
即: Yˆ Y (3)残差的均值为0
第五章 多元线性回归PPT课件
ˆ b0 b1 x1 b2 x2 ... bk xk y
如果xi增加一个单位,即xi变为xi+1,而 其他自变量均保持不变,相应有
ˆ b b x b x y
1 0 1 1 2
2
... bi ( xi 1) ... bk xk
则y的变化幅度为
ˆ [b b x b x ... b ( x 1) ... b x ] ˆ y y [b b x b x ... b ( x 1) ... b x ] b
R
2
二、调整的确定系数
R
2
偏高
<(1:10)
自变量个数 样本规模
三、多元相关系数R
因变量观测值和预测值之间的相关程度
四、方差分析
回归平方和
y的总变 差平方 和
第五节
回归方程的检验和回归系数的推断统计
检验
统计推断
参见郭志刚主编,《社会统计分析方法—SPSS软件应用》第二章, 中国人民大学出版社1999
第一节 相关和回归
一、相关统计量 用一个数值表示两个变量间的相关程度 (无单位度量)(-1~+1)
解读
X与y的相关系数为0.6,x与z的相关系数为 0.3
答案: 只能说明x与y相关程度高于x与z的相关程 度,但不能说前者是后者的两倍
x y x y x y 1 2 y y y y 1 y y 1 2 x x y x 1 x y
y
y
练习:根据下表数据计算lambda
志愿 男
快乐家庭 理想工作 增广见闻 总数 10 40 10 60
性别 女
30 10 0 40
总数
60PPT-第5章-多元线性回归-计量经济学及Stata应用
1
yi 1
xi 2
xiK
2
i
xiβ
i
K
(5.8)
上式对所有个体i都成立(i 1, , n),故有n个形如(5.8)的方程。
16
将所有这 n 个方程都叠放:
y1 x1β 1
y2
x2 β
2
yn
xn β
n
(5.9)
将共同的参数向量 β 向右边提出:
y1 x1 1
6. 1904 138 116 122 4.927254 4.75359 4.804021 7. 1905 149 125 143 5.003946 4.828314 4.962845 8. 1906 163 133 152 5.09375 4.890349 5.02388 9. 1907 176 138 151 5.170484 4.927254 5.01728 10. 1908 185 121 126 5.220356 4.795791 4.836282
1 x12 x1K
X
1 x22
x2 K
1
xn2
xnK
nK
(5.11)
18
5.3 OLS 估计量的推导 对于多元回归模型,OLS 估计量的最小化问题为
n
n
min
ˆ1,,ˆK
ei2 ( yi ˆ1 ˆ2 xi2 ˆ3xi3 ˆK xiK )2
i1
i1
(5.12)
n
最小二乘法寻找使残差平方和(SSR) ei2 最小的(ˆ1, ˆ2,, ˆK )。 i1
0.001 0.000 0.687
[95% Conf. Interval]
.1009363 .5055755 -1.080472
多元线性回归分析简介
称
y ˆ0 ˆ1x1 ˆp xp
为 y 关于 x 的多元线性经验回归方程(函数),它表示 p+1 维空间中的一个超平面(经验回归平面)。
文档仅供参考,如有不当之处,请联系改正。
引进矩阵的形式:
设
y
y1
y2
,
X
1
1
x11 x21
有平方和分解公式 SS=SSR+SSE
文档仅供参考,如有不当之处,请联系改正。
定理 4.5'在 p 元回归分析问题中, SSR 与 SSE 相互独立,
且1
2
SSE
~
2(n
p
1)
;在原假设 H0 成立时,有
12ຫໍສະໝຸດ SSR~2(p)
。
因此取检验统计量 F=
SSR / p
H0成立时
F(p,n-p-1)
SSE / n p 1
( xi1, , xip , yi )( i 1,2,, n )到回归平面
y ˆ0 ˆ1x1 ˆp xp 的距离的大小。
文档仅供参考,如有不当之处,请联系改正。
一元回归分析中旳结论全部能够推广到多 元旳情形中来。
文档仅供参考,如有不当之处,请联系改正。
定理 4.2' 在 p 元回归分析问题中,(1) ˆ 服从 p+1 维正态分
min
0 ,1 , , p
Q(0,
1,
,p)
文档仅供参考,如有不当之处,请联系改正。
定理 4.1'在 p 元回归分析问题中, 的最小
二乘估计量为 ˆ X X 1 X Y 。
文档仅供参考,如有不当之处,请联系改正。
误差方差的估计:
多元线性回归模型蓝色
1
含有两个解释变量的多元回归模型是最简单的多元回归模型。模型形式为
2
含有两个解释变量的多元回归模型
3
(5.1)
4
其中,Yi 是被解释变量,X2i 和X3i 是解释变量,ui是随机干扰项,i 指第i 项观测。
式(5.1)中的 是截距项。表面上看, 代表X2和X3均取0时的Y的均值, 但这仅仅是一种机械的解释,实际上 是指所有未包含到模型中来的变量对Y 的平均影响。
无偏性不是针对某一特定样本而言的,而是指将普通最小二乘法用于各种可能的随机样本时,这种方法得到的结果是无偏的。
1
关于Cov(Xi, ui)=0假定不能满足,从而破坏无偏性,我们将在后面章节讨论它。
2
就是说将普通最小二乘法用于不同的样本,将会得到许多不同的估计值 ,i 表示第i 个样本,j 表示第j 个参数。这些不同的估计值的均值等于总体参数
如果使用普通最小二乘法而得到了式(5.16)的样本回归函数,我们就称其为:将Y 对X1, X2, …, Xk 进行了回归。
壹
【例5.1】 工资回归模型
贰
利用横截面数据估计参数得到如下包含三个解释变量的模型。
叁
Ln(Y)=0.284+0.092X2+0.0041X3+0.022X4
肆
(5.19)
02
在模型中增加一些有助于解释Y 的因素,Y 的变动就能更好地予以解释。因此,多元回归分析有助于更好地预测。
03
多元回归模型更具有一般性。一元回归模型中,只能有一个解释变量,其函数形式不一定恰当。而多元回归模型具有较大的灵活性,有利于对总体回归模型做出正确的判断。
多元回归模型是经济学和其它社会科学进行计量分析时使用最为广泛的一个工具。
第五章多元线性回归模型
第五章 多元线性回归模型在第四章中,我们讨论只有一个解释变量影响被解释变量的情况,但在实际生活中,往往是多个解释变量同时影响着被解释变量。
需要我们建立多元线性回归模型.一、多元线性模型及其假定 多元线性回归模型的一般形式是i iK K i i i x x x y εβββ++++= 2211令列向量x 是变量x k ,k =1,2,的n 个观测值,并用这些数据组成一个n ×K 数据矩阵X ,在多数情况下,X 的第一列假定为一列1,则β1就是模型中的常数项。
最后,令y 是n 个观测值y 1, y 2, …, y n 组成的列向量,现在可将模型写为:εββ++=K K x x y 11构成多元线性回归模型的一组基本假设为 假定1。
εβ+=X y我们主要兴趣在于对参数向量β进行估计和推断.假定2. ,0][][][][21=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n E E E E εεεε 假定3。
n I E 2][σεε=' 假定4. 0]|[=X E ε我们假定X 中不包含ε的任何信息,由于)],|(,[],[X E X Cov X Cov εε= (1)所以假定4暗示着0],[=εX Cov .(1)式成立是因为,对于任何的双变量X ,Y,有E(XY)=E(XE(Y |X)),而且])')|()([(])')((),(EY X Y E EX X E EY Y EX X E Y X Cov --=--=))|(,(X Y E X Cov =这也暗示 βX X y E =]|[假定5 X 是秩为K 的n ×K 随机矩阵 这意味着X 列满秩,X 的各列是线性无关的。
在需要作假设检验和统计推断时,我们总是假定: 假定6 ],0[~2I N σε 二、最小二乘回归 1、最小二乘向量系数采用最小二乘法寻找未知参数β的估计量βˆ,它要求β的估计βˆ满足下面的条件 22min ˆ)ˆ(ββββX y X y S -=-∆ (2)其中()()∑∑==-'-=⎪⎪⎭⎫ ⎝⎛-∆-nj Kj j ij i X y X y x y X y 1212ββββ,min 是对所有的m 维向量β取极小值.也即 ∑∑==-=n i mj j ij i X y S 112)ˆ()ˆ(ββ∑∑==-=n i mj i ijiXy m112,)(min1βββ (3)满足(2)式或(3)式的估计量⎪⎪⎪⎭⎫ ⎝⎛=m Lβββˆˆˆ1 称为β的最小二乘估计,这种求估计量的方法称为最小二乘法(OLS ). 展开上式得βββββX X X y y X y y S ''+'-''-'=)(或ββββX X y X y y S ''+''-'=2)(最小值的必要条件是022)(='+'-=∂∂βββX X y X S 设b 是解,则b 满足正则方程组y X Xb X '='这正是我们曾分析的最小二乘正则方程组。
课件-数理统计与多元统计 第五章 回归分析 5.3-5误差方差的估计
9
lxy ( xi x)( yi y) 2995 i 1
9
9
lxx ( xi x)2 6000, l yy ( yi y)2 1533.38
i 1
i 1
bˆ0
y bˆ1 x
11.6,bˆ1
l xy l xx
0.499167
即得经验回归方程: yˆ 11.6 0.499167x
被估计的回归方程所解释的变差数量,即当
自变量个数增加时,会使预测误差变小,从
而减少SSE,此时SSR变大,R2会变大,可 能因此而高估R2造成误读。因此实际中常用 修正的复决定系数(adjusted multiple cofficient of determinnation) :
Ra2
1
(1
R2 )( n
xi/0C
0
10
20
30
40
yi/mg 14.0 17.5 21.2 26.1 29.2
xi/0C
50
60
70
80
yi/mg 33.3 40.0 48.0 54.8
试估计回归参数b0,b1, σ2,给出经验回归方程:
yˆ bˆ0 bˆ1x
12
解:由数据计算:
1 9
19
x 9 i1 xi 40, y 9 i1 yi 31.56667
H0 : b1 b2 L bp 0 的假设检验步骤:
i) 提出假设: H0 : b1 b2 L bp 0
ii)给定显著性水平α=?,样本容量n=?,p=?
iii) 选择检验统计量,当H0真时:
F SSR / p ~ F ( p, n p 1) SSE / (n p 1)
iv) H0的拒绝域为:
社会科学研究方法回归分析
2014年4月29日12时48分
第6页
社会科学研究方法
二、一元线性回归模型的参数估计
• 回归模型中的参数a与b 在一般情况下都是未知数,必 须根据样本数据( x,y )来估计。 • 确定参数 与 值的原则是要使得样本的回归直线同观察 值的拟合状态最好,即要使得偏差最小。为此,可以 采普通最小二乘法(Ordinary Least Square,OLS) 来解决这个问题。 • 估计值和观察值之间的偏差
y 30391 .69 66.13x
2014年4月29日12时48分
第12页
社会科学研究方法
三、总离差的分解
残差可表示如下:
ˆi ei yi y
试验得到的数据 上式可改写成: 回归直线对应的数据
ˆi ( yi y) ( y ˆi y) ei yi y
移项得:
S XX xi x S XY SYY
Y
y n
i
2
1 x n
2 i
x
i
2
1 xi x yi y xi yi n 2 2 1 2 yi y yi yi n
x y
i i
2014年4月29日12时48分 第20页
社会科学研究方法
-1≤ r ≤1 r > 0,正相关;r = 1 为完全正相关 r < 0,负相关;r = -1 为完全负相关 |r| 越大,两变量相关越密切 正相关:0< r ≤1
2014年4月29日12时48分
第21页
社会科学研究方法
负相关:-1 ≤ r < 0
多元线性回归分析l论幻灯片PPT
糖化血红 .6蛋 63白.2 30 .4 132. 880
a.De pend ent Vari able : 血糖
Si g. .0 12 .0 16 .0 17 .0 08
•检验结果有意义,因此回归方程保留因素X2、X3 、X4 •最后获得回归方程为:
y ˆ 6 . 5 0 0 . 4 X 0 0 0 . 2 2 X 8 0 . 6 7 X 63
9 .9
1 .1 8
1 .4 2
6 .9
2 .0 6
1 0 .3 5
1 0 .5
1 .7 8
8 .5 3
8 .0
2 .4 0
4 .5 3
1 0 .3
3 .6 7
1 2 .7 9
7 .1
1 .0 3
2 .5 3
8 .9
1 .7 1
5 .2 8
9 .9
3 .3 6
2 .9 6
8 .0
1 .1 3
4 .3 1
上例资料,已知X2 、 X3与 X4 对血糖有影响, 但其对血糖的相对作用大小如何?
1
2
3
4
(2)对总的方程进行假设检验
结果无显著性 1)表明所观察的自变量与应变量不存在线性回归 关系; 2)也可能由于样本例数过少;
结果有显著性 表明至少有一个自变量与应变量之间存在线性回归 关系。
A N O VbA
Sum of
Model SquaresM de fan SquarFe Sig.
Sig. .047 .701 .099 .036 .016
有上表可知,X1被剔除。 注意:通常每次只剔除关系最弱的一个因素。
由方程中剔除因素的标准(通常 = 0.10)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SS2 1 53.9021 1 F2 26.38 SSe (n m 1) 6.1307 3
• 对b3检验: • H0:β3=0,H1:β3≠0,α=0.05
SS3 1 3.3304 1 F3 1.63 SSe (n m 1) 6.1307 3
表11-4 方差分析表
(二)偏回归系数的假设检验
1、F检验
• 自变量xj对回归平方和的贡献称为偏
回归平方和,它表示xj对y的影响程度,
记为SSj,相应地其偏回归自由度为1。
• 检验步骤
• ①将所有自变量x1,x2,…,xm全部
引入回归方程中,得到回归平方和
SSR和残差平方和SSe。
• ②将拟检验的某个自变量xj从回归方程中取 出后重新建立起一个含m-1个自变量的回 归方程,并得到不含xj的作用的回归平方和 SSR(-j)。差值SSR-SSR(-j)=SSj就是在其他自 变量已在回归方程中的条件下,xj单独引起
26.065
1.055 12.855 2.523
2.514
1.321 2.503 1.975
10.37
0.80 5.14 1.28
0.0019
0.4831 0.0143 0.2914
0
0.089 0.812 0.221
(三)最优多元线性回归方程的统计选择
• 若从线性回归方程
• y=b0+b1x1+b2x2+…+bjxj+…+bmxm
表1 试验结果
试验号 提取时间/h X1 萃取助剂量 X2 提取次数 X3 得率/‰ y
1 2 3 4 5 6 7
1.2 1.6 2.0 2.4 2.8 3.2 3.6
1.5 0.6 2.1 1.2 0.3 1.8 0.9
2 1 3 2 1 3 3
51.5 39.0 63.0 47.0 35.5 61.0 49.0
df2 n m 1
Sb 2 S y 12 l11 2 l11l22 l12
S y 12
SS剩余 n m 1
例5 用t检验法对例1的偏回归系数进行假设检验。 用SAS统计软件进行t检验输出结果 • 程序
• • • • • • • • • • • DATA zp1; INPUT x1 x2 x3 y @@; CARDS; 1.2 1.5 2 51.5 1.6 0.6 1 39.0 2.0 2.1 3 63.0 2.4 1.2 2 47.0 2.8 0.3 1 35.5 3.2 1.8 3 61.0 3.6 0.9 3 49.0 ;
• 式中
l11 l x1x1 ( x1 x1 )
2
l12 l x1x2 ( x1 x1 )( x2 x2 )
l12 l21
l1 y l x1 y ( x1 x1 )( y y )
• ………………………
• 解此方程组,得到bj(j=1,2,…,m)。
• 求b0,b1,b2,…,bm
•令
ˆ Q ( yi yi ) 2 ( yi b0 b1 xi1 b2 xi 2 bm xim ) 2
i 1 i 1 n n
•
• 根据最小二乘法原理,要使Q达到最小,
b0,b1,b2,…,bm必须满足
n Q ˆ 2 ( yi yi ) b0 i 1
x1 x2 x3
离回归
6.13
查F界值表知,自变量x2对依变量的影
响显著,自变量x1和x3的影响不显著。 • 注:由结果可发现,各偏回归平方和 之和∑SSj不等于总回归平方和SSR,这 表明所选择的三个自变量相互不独立。
2、t检验 • 在H0:βj=0为真的条件下,统计量
tj
bj S bj
• 式中,Sbj为偏回归系数的标准误
S bj S y 12m C jj
S y12m SSe (n m 1)
当有两个自变量时
b1 t1 S b1
df1 n m 1
S b1 S y 12 l22 2 l11l22 l12
b2 t2 Sb 2
• 例6 试对例1进行统计选择。
• 解:对于例1,自变量x1,x3的影响均 不显著,所得回归方程不是最优方程, 必须剔除不显著影响因素,重新进行 回归分析。 • 此例中,SS1<SS3,因而先剔除x1,采 用SAS统计软件进行计算
• 程序
• • • • • • • • • • • DATA zp2; INPUT x2 x3 y @@; CARDS; 1.5 2 51.5 0.6 1 39.0 2.1 3 63.0 1.2 2 47.0 0.3 1 35.5 1.8 3 61.0 0.9 3 49.0 ;
PROC REG ; MODEL y=x1 x2 x3/stb; RUN;
结果
Analysis of Variance Sour Mode Erro DF 3 3 Corrected Total 6 Root MSE Dependent Mean Coeff Var Sum of Mean Squares Square 625.0836 208.3612 6.13068 2.04356 631.21429 1.42953 49.42857 2.89212 F Value Pr > F 101.96 0.0016
SSR dfR SSR m F SSe dfe SSe (n m 1)
• 以检验水准α,若F≥Fα(m,n-m-1),P≤α,
则拒绝H0,认为y与x1,x2,…,xm间有线
性关系;若F<Fα(m,n-m-1),P>α,则
接受H0,认为y与x1,x2,…,xm间没有线
性关系。
• 例2 用F检验法对例1所得的多元线性回归
方程进行假设检验。
• 解:H0:β1=β2=β3=0
• H1:β1,β2,β3至少有一个不等于0
• α=0.05
• 采用SAS统计软件进行回归分析,结果见 表2。
表2
变异 来源 回归 离回归 总变异
方差分析表 MS
208.36 2.04 -
SS
625.08 6.13 631.21
df
3 3 6
F
101.96 - -
Pr>F
0.0016 - -
P=0.0016,按α=0.05水准,拒绝H0,可认为xj变 量组与依变量y之间有线性关系,即所得回归方程 的回归效果高度显著。
2、复相关系数检验法
(1)复相关系数
• 复相关系数用“R”表示
R
SS回 SS总
= 1-
SS 残 SS总
• R的取值区间为〔0,1〕。在一定的自由度下,R 的值越接近于1,总相关越密切;越接近于0,总 相关越不密切。
• 中剔除某个不显著因子xk后,可设新建立的回归 方程为
• y*=b0*+b1*x1+…+bk-1*xk-1+bk+1*xk+1 +…+bm*xm
• 当各自变量相互独立、完全无关时,bj*=bj,否 则bj*≠bj。
• 统计学上把回归关系显著的前提下逐 步剔除不显著自变量的过程,称为自 变量的统计选择,所得到的仅包含显 著自变量的多元线性回归方程,称为 最优多元线性回归方程。
R-Square Adj R-Sq
0.9903 0.9806
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate
Intercept 1
x1 x2 x3 1 1 1
623.78 571.18
621.75
1.30 53.90
3.33
― ―
―
• 对b1检验: • H0:β1=0,H1:β1≠0,α=0.05
SS1 1 1.3018 1 F1 0.64 SSe (n m 1) 6.1307 3
• 对b2检验: • H0:β2=0,H1:β2≠0,α=0.05
第十一章 多重线性回归分析
第一节 多重线性回归
一、多重线性回归方程的建立
多重线性回归的数学模型为 yi=β0+β1xi1+…+βmxim+εi
(i=1,2,…,n)
• 多重线性回归方程的估计式
ˆ y b0 b1 x1 b2 x2 bm xm
ˆ • 式中,y 是μy的估计值, b0,b1, b2,…,bm分别是β0,β1,…,βm的 估计值, bj称为偏回归系数。
• 例4 试用F检验法对上例1的偏回归系 数进行检验。 • 列出各自变量的偏回归平方和如表3。
表3 各自变量的偏回归平方和
方程内自变量
方程外自 变量 回归平方 和SSR 偏回归平 误差平方 方和SSj 和SSe
x1,x2,x3
―
625.08
―
6.13
x2,x3 x1,x3
x1,x2
x1 x2
x3
•
n Q ˆ 2 ( yi yi ) xij 0 b j i 1
(j=1,2,…,m)
• 由此可以得到如下正规方程组为
b1l11 b2l12 bml1m l1 y
b1l21 b2l22 bml2 m l2 y
• …………………………
b1lm1 b2lm 2 bmlmm lmy
用计算机程序可直接求得bj。 • 常数项b0的计算公式为
b0 y (b1 x1 b2 x2 bm xm )
• 例1 为寻找利用某农产品废料提取果 胶的最优工艺条件,设计考察了每次 提取时间、萃取助剂量和提取次数三 个因素对果胶得率的影响,试验结果 如表1所示,试利用线性回归模型求其 回归方程。