应用统计方法课件 3-2
§3.2 多元线性回归
建立模型
参数估计显著性检验
预测预报
6-1
6-4
一.建立模型
设影响因变量y 的自变量为x x x m 12,,, ,如果它们满足下述关系
y =+++++b b x b x b x m m 01122 ε (3-21) 其中ε是零均值的随机变量,x x x m 12,,, 是可控制变量,b b b m 01,,, 为未知参数,则称(3-21)为多元线性回归模型(m >1)。
假设对x x x m 12,,, ,y 进行n 次观察, 得n 组观
察值()x x x y i i im i 12,,,, (i n =12,,, ),即
y i =b b x b x b x i i m im i
01122+++++ ε通常假定εεε12,,, n 独立同分布N (,)02
σ,
(记为i.i.d N (,)02
σ)
类似的可用向量矩阵形式表示如下:
Y X =+βε (3-23) 其中,
Y y y y n ='
(,,,)12 β='(,,,,)b b b b m 012 εεεε='(,,,)12 n ?
????????=nm m m n n x x x x x x x x x X 212122*********
为讨论问题方便,我们假定X 的秩为m +1(n m >)。
(i n =12,,, ) (3-22)
二. 参数估计 最小二乘估计
对(3-21),我们依据()x x x y i i im i 12,,,, (i n =12,,, )这n 组观察值对未知参数作估计,即估计b b b m 01,,, , 为此令 Q Q b b b m =()01,,, ==∑ε
i
i n
21 =-----=∑()y b b x b x b x i i i m im i n
011222
1
(3-25)
选取使Q 达最小的 , ,, b b b m
01 作为未知参数b b b m 01,,, 的估计,称为最小二乘估计, Q 称为残差平方和。
下面求 , ,, b b b m 01 :对Q 求关于b b b m
01,,, 的偏导数,得如下方程 ??Q
b 0
2=-()y b b x b x b x i i i m im i n -----==∑0112210
??Q
b j =-2()y b b x b x b x x i i i m im ij i n -----==∑0112210 (j m =12,,, ) 由(3-26)式得
y nb b x b x b x i i n
i i n
i i n
m im i n
====∑∑∑∑=++++1
0111
221
1
(3-26)
(3-27)
即 y b b x b x b x m m
=++++01122 b y b x b x b x y x b m m j j j m
011221
=----=-=∑ (3-28) 其中,x n x j ij i n
==∑11
,将(3-28)代入(3-27)式得
∑∑∑====---m k m
k ij ik k k k n i i x x b x b y y 1
1
10
])([∑∑∑∑∑∑======-=-n i ij
k m
k k n i m
k ij ik k n
i ij n
i ij i x x b x x b y x x y 11
11
1
1
b x x nx x y x nx y k k m
ik ij k j i ij j i n
i n
===∑∑∑-=-1
1
1
()
(j m =12,,, ) (3-29)
b x x nx x y x nx y k k m ik ij k j i ij j i n
i n ===∑∑∑-=-1
1
1
() (j m =12,,, )
令 i l k i =
=,,并记∑∑===--=-=n l n
l ji j lj i li j i lj li ij l x x x x x x n x x l 11))((∑∑==--=-=n
l n l l j lj j lj l jy y y x x y x n x y l 11
)
)(( (l y x nx y y y x x iy l li i l li i l n
l n =-=--==∑∑()()1
1)
l y y yy l l n
=-=∑()
2
1
则(3-29)变为 b l l i ij jy i m
==∑1
(j m =12,,, )
b l l i ij jy i m
==∑1
(j m =12,,, )
与(3-28)联立得b b b m 01,,, 的最小二乘估计满足下列方程组
l b l b l b l l b l b l b l l b l b l b l b y b x b x b x m m y m m y m m mm m my m m
1111221121122222112201122+++=+++=+++==----????????? (3-30) 通常称(3-30)的前m 个方程为m 阶正规方程,正规方程的系数矩阵称为正规矩阵,记为
??
?
??
?
???
???==?mm m m m m m
m ij l l l
l l l l l l l L 2
12222111211)(未知参数及常数项分别为B b b b m ='()12,,, ,
l l l l y y y my ='()12,,, ,于是正规方程可表示成
LB l y = (3-31)
由此得B 的估计
B L l y =-1 (3-32)
通常称 B
为回归系数,代入(3-28)得b 0的估计为 b y b x i i
i m
01
=-=∑ (3-33) 不难看出L X X =',其中
X x x x x x
x x x x m m
n n nm =????
????
????~~~~~~~~~1112121
22
21
2
(~x x x ij ij j =-) 令:)~~
~~21'=n y y y Y ,,,( ,y y y i i -=~,则方
程组(3-30)可写作
()~
'='=-?????=∑X X B X Y b y b x i i i m 01
(3-34) 由此得
()~ B X X X Y b y b x i i i m =''=-?????-=∑101
(3-35) 在给出了b B 0、的估计 b B 0
、之后,我们把 b b x b x m m
011+++ 作为y 的估计,记为 y ,即 y
m
m x b x b b ???110+++= (3-36) 称(3-36)为回归方程。
以二阶为例说明(3-34)式
??
?
??
?
??????------=?????????
???=221
12221212121
1121
22211211~~~~~~x x x x x x x x x x x x x x x x x x X n n n n ??
?
??
?
??????------????
??------=221
1222121212111222
22212111
21111'
x x x x x x x x x x x x x x x x x x x x x x x x X X n n n n
??????????------=∑∑∑∑====n
i i n i i i n
i i i n
i i x x x x x x x x x x x x 1
2
22122111
221112
11)())(())(()(??
?
??
?
??????------????
??------=221
1222121212111222
22212111
21111'
x x x x x x x x x x x x x x x x x x x x x x x x X X n n n n ??
????=22211211l l l l
~~~~)Y y y y n ='(,,,12 ,~y y y
i i =-?????
???????---????
??------=y y y y y y x x x x x x x x x x x x Y X n n n 21222
2221211121111'~
??????=????
?
?????----=∑∑==y y n i i i n
i i i l l y y x x y y x x 21122111))(())((
回归方程是由观测数据()x x x y i i im i 12,,,, (i n =12,,, )所得经验公式。 在得到回归
方程之后,我们自然提出以下问题:
(1)回归方程是否有意义,即x x x m 12,,, 对y 是否有影响,而且是线性的,这就需要进行检验。
(2)若回归方程有意义,则可用它预测y 的
值,那么偏差y y
- 有多大。
三. 参数检验(0210====m b b b H :)
记数据n y y y ,,,21 的总变差为
S 总
2
∑=-==
n
i i yy y y l 12
)?( (3-37) 类似与一元线性回归进行平方和分解得
S 总
2=+S S 残
回
22 (3-38) 其中
S 回
2
=-=∑( )y
y i i n
2
1=-=∑( )y y i i n
2
1
(3-39) S 残
2
=-=∑( )y y
i i i n
2
1
(3-40) 分别称为回归平方和、残差平方和。
还可证明
S 回
2
=+++l b l b l b y y my m
1122 (3-41) 令
F S
m
S
n m =
--回
残
221//()
(3-42)
可以证明,当H 0成立时F F m n m ~(),--1,
对给定水平α(α较小), 由P F {}>=λα查F
分布表可求得
λ.若F >λ,则否定H 0,说明在检验水平α下,
x x x m 12,,, 对y 影响显著,即回归方程有意义。
否则认为回归方程无意义。
称
∑∑==--=
n
i i
n
i i
y y
y y
r 1
2
12
)
()?(22总
回S
S =
为样本复相关系数,而称222
总
回S
S r =
为决定系数。
复相关系数r 满足10≤≤r ,对于显著性水平α,查附表2得复相关系数检验的临界值)1(--=m n r αλ,由样本算得220总
回S
S r =
,若λ>0r ,则认为线性回归效果
显著;若λ≤0r ,则认为x 与y 之间不存在线性相关关系。
定义3-1 P S S
i i =-回
回
22称为第i 个因子
x i 关于回归模型的偏回归平方和,其中S
i 2回
是
原回归模型中去掉第i 个因子x i 后新回归模型的回归平方和。
由定义可以看出,P i 反映了因子 x i 对回归
平方和的贡献,可以证明
P b l i
i
ii = /2 (3-43)
其中l ii 为L X X --='11
()中第i 个主对角元,且
l ii
>0。
检验假设H b i 00
:= F P S n m i i
=--残21/()
(3-44)
可证当H 0成立时F F n m i ~()11,--.
对给定水平α,由 P F i {}>=λα 查F 分
若F i >λ,则否定H 0,即保留 否则剔除x i 。布表可求得λ, 因子x i ,
应用统计方法课件 2-1
第二章数理统计初步 基本概念 参数估计 假设检验
学习目的 数理统计的内容十分丰富,本章主要介绍它的基本概念、参数估计和假设检验。通过本章的学习应初步掌握用数理统计处理随机现象的基本思想和方法,提高运用数理统计方法分析和解决实际问题能力。
基本要求 1.理解总体、个体、简单随机样本和统计量的概念。 2.了解频率分布表、直方图的作法。 3.理解样本均值、样本方差的概念,掌握根据数据计算样本均值、样本方差的方法。 4.了解产生2χ变量、t变量、F变量的典型模式;理解2χ分布、t分布和F分布的分位数,会查相应的数值表。 5.了解正态总体的某些常用抽样分布,如正态总体样本产生的标准正态分布、2χ分布、t分布、F 分布等。
6.理解参数的点估计、估计量与估计值的概念。掌握矩估计法(一阶、二阶矩)与极大似然估计法。 7.了解无偏性、有效性和一致性(相合性)的概念,并会验证估计量的无偏性、有效性。 8.理解区间估计的概念,会求单个正态总体的均值和方差的置信区间,会求两个正态总体的均值差和方差比的置信区间。 9.理解假设检验的基本思想,掌握假设检验的基本步骤,了解假设检验可能发生的两类错误。 10.了解单个和两个正态总体的均值和方差的假设检验。 11.了解总体分布假设的2 检验法,会应用该
重点 1.样本、统计量和估计量等概念的理解。2.矩估计法和极大似然估计法。 3.估计量的评选标准(无偏性、有效性)。4.正态总体的均值和方差的置信区间。 5.假设检验的基本思想方法、步骤及两类错误。 难点 1.统计量和估计量等概念的理解。 2.极大似然估计法的基本思想的理解。 3.统计量的分布及不同情况下临界值的确定。