多元回归拟合算法 (1)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
序号:
预测值(ppm):
真实值(ppm):
相对误差:
1
2 3 4 5 6 7 8 9 平均相对误差:
0.0919
0.1761 0.2833 0.5286 0.7255 0.8008 0.9983 2.6639 2.949
0.101
0.2363 0.281 0.591 0.764 0.9215 1.011 2.72 3.114
x
对回归方程的检验:
●拟合度检验(针对全部自变量的选择) ●回归方程的显著性检验(针对回归模型) ●回归系数的显著性检验(针对回归系数) ●多重共线性检验(针对自变量与自变量之间的线性关系)
★常用的检验方法:可决系数
F检验
T检验
多重共线性检验
可决系数:(判定系数,决定系数)
SSR SST SSE 1 SST SST 2 y y y 2 R 1 2 y y y R2 SSE SST 2 y y
2
U Q
SST SSR SSE
2 ˆ ˆ ( y y ) ( y y ) ( y y ) i i i i U Q 2 2 i 1 i 1 i 1 n n n
y0
y
( y0 y )
y
ˆ) ( y0 y
( yˆ y )
yˆ a b x
2
回归平方和占总离差平方和的比例。或者说,因变量取 值的变差中,能被多元回归方程所解释的比例。由 R 2 的意 义看来,其值越接近于1,意味着模型的拟合优度越高。
从理论上来讲,随着自变量个数的不断增加,会使得R2不断增加。 为避免增加自变量而高估 R 2,引入了调整的R 2
SSE
2 R 1
( n p 1) SST ( n 1)
式中,n为样本量,p为自变量个数
调整的R 2的引入,目的是惩罚过多的使用不 重要的自变量,也可以用于比较多个模型。
F检验:
该类检验主要针对回归方程的显著性检验 ◎回归方程的显著性检验主要是检验被解释变量与所有的 解释变量之间的线性关系是否显著。 对于多元线性回归方程来说,F检验的检验统计量:
多元线性回归基本步骤
█ 步骤一:回归系数β的求解
方法:最小二乘法
我们寻求回归系数
ˆ , ˆ ,..., ˆ 0 , 1 ,..., p 的适宜数值 0 1 p
应该使得实际观察值和回归方程估计值之间残差平方和最小,即有:
ˆ i )2 残差平方和Q = i ( yi y
n
2 ˆ S SR ( y y ) 回归平方和: i i 1
n 2 ˆ SSE ( y y ) i i 残差平方和: i 1
则有:
n i 1
SST SSR SSE ˆ y ) (y y ˆ) ( y y ) (y
2 n 2 n i i 1 i i 1 i i
的最小二乘估计值。
ˆ ( i 0,1, , p) 是要求解的 ( i 0,1, , p) i i
█ 步骤二:对得到的回归方程进行检验 n组观测值的均值记为:
1 n E ( y ) y yi n i 1
n i 1
总离差平方和:
SST ( yi y )2
ˆ i
为
xi
对应的回归系数;
T检验的主要步骤:
1.提出假设
H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系)
2.计算检验的统计量 t
ti ˆ i S ˆ
i
~ t (n p 1)
3.由T值得到检验P值 4. 作出决策
ˆ y)2 / p (y SSR/ p F ~ F(p,n p 1) 2 ˆ SSE /(n p 1) ( y y) /(n p 1)
3.由F值得到检验P值 4. 作出决策
确定显著性水平和P比较,P< 拒绝H0.
T检验:
前面两种检验,讨论了回归方程中全部自变量的总体回归效果, 但总 体回归效果显著并不说明每个自变量对因变量都是重要的, 即可能有某个 自变量对y并不起作用或者能被其它的自变量的作用所代替, 因此对这种自 变量我们希望从回归方程中剔除, 这样可以建立更简单的回归方程。
(3)多元决定系数诊断
2 假定多元回归模型 p个自变量,其多元决定系数为 Ry x1 ,x2 ,,x p
。分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应
用最小二乘法准则分别拟合回归方程,求出它们各自的决定系数 Ri2
(i=1,2,…,p)。
2 如果其中的某一个 Ri2与 Ry很接近,假设不含 X 1 的回归模型,其决定 2 系数与 Ry 很接近,说明将 X 1 从模型中去掉,对回归模型的决定系数影 响不大。
多重共线性的衡量:
(1) 容忍度
Toli 1 Ri
2
2
① Ri 是第i个解释变量与方程中其他解释变量间的复相关系 数的平方,表示解释变量之间的线性相关程度。 ② 容忍度的取值范围在0-1之间,越接近0表示多重共线性越 强,越接近1表示多重共线性越弱。
(2)方差膨胀因子VIF
① 方差膨胀因子是容忍度的倒数。 ② VIF越大多重共线性越强,当VIF大于等于10时,说 明存在严重的多重共线性。
确定显著性水平和P比较, < P拒绝H0.
多重共线性检验:
多重共线性是指解释变量之间存在线性相关关系的现象。
k1 X 1 k2 X 2 km X M V 0
多重共线性的后果
(1)偏回归系数估计困难甚至难以得到估计值; (2)偏回归系数的估计值得方差增大,使得估计值不合理; (3)偏回归系数估计值不稳定(随着样本含量的增减各偏回归系数发生 较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变 化); (4)偏回归系数假设检验的结果不显著,容易产生错误的判定
因此,可认为该变量对Y总变异的解释能力可由其他自变量代替。它 很有可能是其他自变量的线性组合。该自变量进入模型后就有可能引起多 重共线性问题。
逐步回归
主要思想:
在考虑的全部自变量中按其对因变量的贡献(偏回归平方和)的 大小, 由大到小地逐个引入回归方程,。另外, 己被引入回归方程的变 量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。 引入一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行相关的检验。
写成矩阵形式:
Y X
T
Y ( y1 , y2 ,, yn )T
( 1 , 2 ,, n )
( 0 , 1 , , p )T
1 x11 1 x21 X 1 xn1
x12 x22 xn 2
x1 p x2 p xnp
偏回归平方和:
多元回归拟合在甲醛浓度预测中的应用
在回归模型中,自变量的次数超过三次的模型很不稳定,故实际中 尽量采用3次以下的模型来进行拟合。 模型中可能存在的项有:v2t2、v2t、vt2、vt、v2、v、t2、t、 ln(v2t2 )、ln(v2t)、ln(vt2 )、ln(vt)、ln(v2)、ln(v)、 ln(t2 )、 ln(t)、EXP(v2)、EXP(v)。
多元线性回归模型:
Y 0 1 x1 m xm 2 ~ N ( 0 , )
◆ 0 :常数项,又称为截距
◆
1 , 2
… m : 偏回归系数,简称回归系数。表示相应的自变
量对因变量的影响程度。 ◆ :去除m个自变量对Y的影响后的随机误差,不可观测。且通常 假定
2 i 1 i 1
n
n
ˆ ˆ x ˆ x ˆ x )2 ( yi 0 1 i1 2 i2 p ip
i 1
n
根据最小二乘法理论,将上式分别对 0 , 1 ,..., p 求偏导数,令偏导数为 零,可获得P+1个正规方程,求解正规方程可得待估参数值。
ˆ
ˆ
ˆ
n Q ˆ ˆ x ˆ x ˆ x )0 2 ( y i 0 1 i 1 2 i 2 p ip ˆ i 1 0 n Q ˆ ˆ x ˆ x ˆ x )x 0 ˆ 2 ( yi 0 1 i1 2 i2 p ip i1 i 1 1 n Q ˆ ˆ ˆ ˆ ˆ 2 ( yi 0 1 xi 1 2 xi 2 p xip ) xip 0 i 1 P
~ N (0, 2 )
若进行n次独立观测,得到n组样本数据
( xi 1 , xi 2 ,, xip ; yi ) , i 1,2,, n
每一组样本数据分别满足多元线性回归模型,即有:
y1 0 1 x11 2 x12 p x1 p 1 y2 0 1 x21 2 x22 p x2 p 2 y x x x 0 1 n1 2 n2 p np n n
对已加入项V 进行F检验, 显著,不踢 出
计算每个变 量的偏回归 平方和
V的贡献最大, 将V加入模型
没有满足加 入条件的变 量
运用SPSS进行逐步回归,得到回归方程含有的项为v2t和v。
配成:
Y a b V c V 2t
在MALAB中使用Regress函数可求出系数,进而完成相关的数据处理工作。
9.01%
25.46% 0.82% 10.55% 5.04% 13.1% 1.26% 2.06% 5.3% 8.10%
(5号板)
谢谢
电化学甲醛检测仪浓度预测算法:
多元回归拟合算法
汇报人:孙皓
目录
1 2 3
多元回归分析简介 多元回归分析步骤 逐步回归用于甲醛浓度预测
多元回归分析
基本概念:
百度文库
回归分析:是一种通过一组自变量来预测一个或多
个因变量的统计方法。
多元线性回归
●多元:有多个自变量; ●线性:通过自变量的线性组合对因变量进行预测或估计;
回归步骤:
①全部待引入回归方程的变量分别计算其偏回归平方和, 并选其中 偏回归平方和最大的一个变量,进行F检验,显著则引入,不显著 则停止引入。 ②对已引入回归方程的变量计算其偏回归平方和, 然后选一个偏 回归平方和最小的变量,进行F检验, 如果显著则不踢出转到① 。 如不显著则需踢出,然后按偏回归平方和由小到大地依次对方程 中其它变量进行 F 检验。
2 ˆ ( y y ) /p SSR/ p F ~ F(p,n p 1) 2 ˆ ) /(n p 1) SSE /(n p 1) ( y y
式中,n为样本量,p为自变量个数。其中p,n-p-1 又被称为自由度。
F检验的主要流程:
1.提出假设 H0:12k=0 线性关系不显著;(不存在线性关系) H1:1,2, k至少有一个不等于0。 2.计算检验统计量F
T检验主要针对的是回归系数的显著性检验
◎回归系数的显著性检验主要是检验回归方程中被解释变量与
每一个解释变量之间的线性关系是否显著。
对于多元线性回归方程来说, T检验的检验统计量为:
ti
ˆ i S ˆ
i
~ t (n p 1)
式中,n为样本量,p为自变量个数,n-p-1为自由度,
ˆ 的标准差; S ˆ 为回归系数 i i