第11章多元回归及复相关分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)从包含全部变量的回归方程中逐次剔除不显著因子;
(3)从一个变量开始,把变量逐个引入方程; (4)“有进有出”的逐步回归分析。
以第四种方法,即逐步回归分析法在筛选变量方面较 为理想.
2020/6/6
10
逐步回归分析法的思想:
• 从一个自变量开始,视因变量Y作用的显著程度,从大 到小地依次逐个引入回归方程。
其中 p 是已知的,i (i 1,2, , p) 是未知参数, 服从正态分布 N (0, 2 ) .
Y 0 1x 2 x 2 ... k x k
称为回归多项式.上面的回归模型称为多项式回归.
令xi xi ,i=1,2,…,k 多项式回归模型变为多元线性 回归模型.
2020/6/6
回 归 系 数







用于检验回归模型的统计量,
区 间
有三个数值:相关系数r2、

F值、与F对应的概率p

相关系数 r2 越接近 1,说明回归方程越显著;
.


省显
时著
为性
0
水 平
05

F > F1-α(k,n-k-1)时拒绝 H0,F 越大,说明回归方程越显著;
与 F 对应的概率 p 时拒绝 H0,回归模型成立.



逐 步 回 归 分 析
2
§11.1、多元线性回归方程
y p 0 1x1p 2 x2 p ... k xkp p , p 1,2,..., n
2020/6/6
3
一、多元线性回归模型
一般称
Y X E( ) 0, COV ( , ) 2 I n
为高斯—马尔柯夫线性模型(k 元线性回归模型),并简记为(Y , X , 2 I n )
(1)用试验值 (样 本值) 对未知 参数 和 2 作点估计和 假设检 验, 从而建 立 y 与
x1, x2 ,..., xk 之间的数量关系;
(2)在 x1 x01, x2 x02 ,..., xk x0k , 处对 y 的值作预测与控制,即对 y 作区间估计.
2020/6/6
4
二、模型参数估计
2020/6/6
17
例 2 观测物体降落的距离 s 与时间 t 的关系,得到数据如下表,求 s 关于 t 的回归方程sˆ a bt ct 2 .
t (s)
1/30
2/30
3/30
4/30
5/30
6/30
7/30
s (cm) 11.86
15.67
20.60
26.69
33.71
41.93
51.13
2020/6/6
11
统计工具箱中的回归分析命令
1、多元线性回归 2、多项式回归 3、非线性回归 4、逐步回归
2020/6/6
12
多元线性回归
y 0 1x1 ... p x p
1、确定回归系数的点估计值:
b=regress( Y, X )
b
ˆ 0 ˆ1
.ˆ.p.
Y1
Y
Y2
即 ˆ0 16.073, ˆ1 0.7194 ; ˆ0 的置信区间为[-33.7017,1.5612],ˆ1 的置信区间为[0.6047,0.834];
r2=0.9282, F=180.9531, p=0.0000
p<200.2005/6, /6可知回归模型 y=-16.073+0.7194x 成立.
地有线性关系;否则就接受 n
H0,认为
y

x1,… n ,
xk
之间线性关系不
显著. 其中 U yˆi y2 (回归平方和) Qe ( yi yˆi )2 (残差平方和)
i 1
i 1
对其中一个回归系数 j的检验,可用下面的检验法:
ˆ j
~
N
(
j
,
2 ˆ
j
),
所以t
ˆ j j
sˆ j
ˆ j ~ t(n k 1)
15
3、残差分析,作残差图: rcoplot(r,rint)
从残差图可以看出,除第二个数据外,其余数据的残
差离零点均较近,且残差的置信区间均包含零点,这说明
回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第
二个数据可视为异常点.
Residual Case Order Plot
4
4、预测及作图:
3 2
Residuals
z=b(1)+b(2)*x
1
0
plot(x,Y,'k+',x,z,'r')
-1
-2
-3
-4
-5
2
4
6
8
10 12 14 16
Case Number
2020/6/6
To MATLAB(liti12) 返回
16
多项式回归
(一)一元多项式回归 y=a1xm+a2xm-1+…+amx+am+1 1、回归:
...
Yn
1 x11 x12 ... x1p
X
1 ...
x21 ...
x22 ...
...
x2
p
... ...
1
xn1
xn2
...
xnp
对一元线性回归,取 p=1 即可
2020/6/6
13
2、求回归系数的点估计和区间估计、并检验回归模型: [b, bint,r,rint,stats]=regress(Y,X,alpha)
MSec jj
其中c jj是系数矩阵的逆矩阵( X ' X )1对角线上的元素
2020/6/6
7
三、多元线性回归中的检验与预测
(Ⅱ)r检验法
定义 R
U
Lyy
U U Qe
为 y 与 x1,x2,...,xk 的多元相关系数或复相关系数。
复相关系数反应了 Y 与所有子变量之间回归关系的密切程度. 从附表 12 查相应的 复相关系数的临界值.
ci'j ,
ci'i
c
' jj
其中ci'j为相关矩阵R m.m (由m个变量的简单相关系数构成的矩阵)的逆矩阵中的元素
反应了Y与各个自变量两两之间,或者自变量两两之间的关系. 其显著性可通过与
附表12中的临界值比较得到.
2020/6/6
8
2、预测
(1)点预测 求出回归方程 yˆ ˆ0 ˆ1x1 ... ˆk xk ,对于给定自
(1)确定多项式系数的命令:[p,S]=polyfit(x,y,m)
其中 x=(x1,x2,…,xn),y=(y1,y2,…,yn); p=(a1,a2,…,am+1)是多项式 y=a1xm+a2xm-1+…+amx+am+1 的系数;S 是一个矩阵,用来估计预测误差.
(2)一元多项式回归命令:polytool(x,y,m)
• 当引入的自变量由于后面变量的引入而变得不显著时, 要将其剔除掉。
• 引入一个自变量或从回归方程中剔除一个自变量,为 逐步回归的一步。
• 对于每一步都要进行Y值检验,以确保每次引入新的显 著性变量前回归方程中只包含对Y作用显著的变量。
• 这个过程反复进行,直至既无不显著的变量从回归方 程中剔除,又无显著变量可引入回归方程时为止。
2、回归分析及检验: [b,bint,r,rint,stats]=regress(Y,X) b,bint,stats
得结果:b =
bint =
To MATLAB(liti11)
-16.0730
-33.7071 1.5612
0.7194
0.6047 0.8340
stats =
0.9282 180.9531 0.0000
由于 F n k 1 R 2 ,故用 F 和用 R 检验是等效的。
k 1 R2 设共有m个变量( X1, X 2,...,X m ),其中第i个变量和第j个变量之间,
除去另外m 2个变量的影响后的相关系数, 称为X i对X j的偏相关系数, 记为
r , ij 12...(i1)(i1)...( j1)( j1)...m
t (s) s (cm)
8/30 61.49
9/30 72.90
10/30 85.44
11/30 99.08
12/30 113.77
13/30 129.54
14/30 146.48
法一
直接作二次多项式回归:
t=1/30:1/30:14/30;
s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90
解得估计值 ˆ X T X 1 X TY
得到的 ˆi 代入回归平面方程得:
y ˆ0 ˆ1x1 ... ˆk xk
称为2经020验/6/6回归平面方程. ˆi 称为经验回归系数或偏回归系数.
5
2、多项式回归
设变量 x、Y 的回归模型为 Y 0 1x 2 x2 ... p x p
第十一章 多元回归及复相关分析
2020/6/6
1
回归分析
一元线性回归
多元线性回归
* *
* *
数 学 模 型 及 定 义
模 制检 型验 参、 数预 估测 计与

2020/6/6
性可 回线 归性 (化 曲的 线一 回元 归非 )线
数 学 模 型 及 定 义
模 型 参 数 估 计
检 验 与 预 测
多 元 线 性 回
To MATLAB(liti22)
s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90
Leabharlann Baidu
85.44 99.08 113.77 129.54 146.48];
T=[ones(14,1) t' (t.^2)'];
[b,bint,r,rint,stats]=regress(s',T);
3、画出残差及其置信区间:
2020/6/6
rcoplot(r,rint)
14
例1 解:1、输入数据:
x=[143 145 146 147 149 150 153 154 155 156 157 158 159
题目
160 162 164]';
X=[ones(16,1) x];
Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';
y1
1 x11 x12 ... x1k
0
1
Y
...

X
1
x21
x22
...
x2k

1

2
...
... ... ... ... ...
...
...
y
n
1
x n1
xn2
...
x
n
k
k
n
y 0 1x1 ... k xk 称为回归平面方程.
线性模型 (Y , X , 2 I n ) 考虑的主要问题是:
85.44 99.08 113.77 129.54 146.48];
[p,S]=polyfit(t,s,2) 得回归模型为 :
To MATLAB(liti21)
sˆ 489.2946t2 65.8896t 9.1329
2020/6/6
18
法二
化为多元线性回归: t=1/30:1/30:14/30;
b,stats
得回归模型为 : sˆ 9.1329 65.8896t 489.2946t 2
2、预测和预测误差估计: (1)Y=polyval(p,x)求polyfit所得的回归多项式在x处 的预 测值Y; (2)[Y,DELTA]=polyconf(p,x,S,alpha)求polyfit所得 的回归多项式在x处的预测值Y及预测值的显著性为1alpha的置信区间Y DELTA;alpha缺省时为0.5.
变量的值 x1* ,..., xk ,用 yˆ * ˆ0 ˆ1 x1* ... ˆk xk * 来预测
y 0 1 x1* ... k xk * .称 yˆ * 为 y* 的点预测.
(2)区间预测
y 的1 的预测区间(置信)区间为( yˆ1, yˆ2 ) ,其中
kk
yˆ1 yˆ ˆ e 1 cij xi x j t1 / 2 (n k 1)
6
三、多元线性回归中的检验与预测
1、线性模型和回归系数的检验
假设
H 0 : 0 1 ... k 0
(Ⅰ)F检验法
U /k
当 H0 成立时, F Qe /(n k 1) ~ F (k, n k 1)
如果 F > F1-α(k,n-k-1),则拒绝 H0,认为 y 与 x1,…, xk 之间显著
i0 j0

2

ˆ e
kk
1 cij xi x j t1 / 2 (n k 1)
i0 j0
ˆe
Qe n k 1
C=L-1=(cij), L=X’X
2020/6/6
9
四、逐步回归分析
“最优”的回归方程就是包含所有对Y有影响的变量, 而不包 含对Y影响不显著的变量回归方程。
选择“最优”的回归方程有以下几种方法: (1)从所有可能的因子(变量)组合的回归方程中选择最优者;
1、对 i 和 2 作估计
用最小二乘法求0 ,..., k 的估计量:作离差平方和
n
Q yi 0 1xi1 ... k xik 2 i 1
选择 0 ,..., k 使 Q 达到最小。
正规方程为 :
X ' X X 'Y 如果( X ' X )-1存在的话 ,则有( X ' X )-1 X ' X ( X ' X )-1 X 'Y
相关文档
最新文档