气候统计回归分析之多元回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H0 : i 0, i 1, 2, ,k
检验统计量:
bi2 / Ci Fi , i 1, 2, , k SSE /(n k 1)
n t 1
Ci [ ( xit xi )2 ]1
遵从分子自由度为1,分母自由度为n-k-1的F分布。
预报因子显著性检验
或者遵从自由度为n-k-1的t分布; T分布统计量为:
1 2
方差分析
总平方和(SST):
SST yi y
i 1 n 2
回归平方和(SSR):
ˆi y SSR y
n 2
残差平方和(SSE): 简单推得三者关系:
i 1
ˆi SSE ei yi y
2 i 1 i 1
n
n
2
SST SSR SSE
F F 0.05
预报因子检验
F1 4.297, F2 0.881, F3 8.07
F 0.05 (1, 40) 4.08
例2
在对城市热岛效应分析中
Tu r T Tc
Tc 为由地理位置差异(纬度、经度、海拔
高度)造成的温差
T C0 C1 C2 C3Z
常用的变量代换
幂函数,如 x2 x12 或 x2 x1 三角函数、指数、对数 联合以上函数的变量代换 虽然原预报因子为非线性函数,但经过变 量代换后可化为线性形式。
举例(图)
一元线性回归拟合
一元线性回归方程:
[CO2 ] 312.9 0.0992t
显示出很强的CO2浓度随时间增长的趋势; 截距仅仅估计出t=0时刻的CO2浓度; 残差显示出“弓形”变化,在记录的开始 和结束部分为正残差,而中间部分为负残 差。
第四章 回归分析
第二部分 多元回归
概述
多元回归是线性回归中最常用的回归模型之一。 在气象统计预报中,通常要寻找某个气象要素与 多个因子之间的关系。通常可利用多元回归建立 预报模型。 与一元回归类似的是:多元回归也只有一个预报 量。 与一元回归不同之处为:预报因子不止一个。
回归模型
类似于一元线性回归模型,多元线性回归 模型为:
例1
魏凤英书中例子(P219) 预报量y:长江中下游夏季(6-8月)降水 量 预报因子:
Hale Waihona Puke x1 : 冬季(12月-翌年2月)北太平洋涛动指数 x2 :1月太平洋地区极涡面积指数 x3
:5月西太平洋副高脊线
观测样本长度(1953-1996),n=44
例1
得到回归方程:
ˆi b0 b1xi1 b2 xi 2 y
回归系数 b0 , b1 , b2 , 回归常数 b0
bk xik , (i 1, 2,
, bk
, n)
为
0 , 1 , 2 , , k
的估计值;
当k=1时,为一元线性回归方程:
ˆi b0 b1xi , (i 1, 2, y , n)
, bk
的方程组
回归方程的其它形式——距平形式
由回归系数的正规方程的一个方程可以导 出:
b0 y b1x1 b2 x2 bk xk
代入回归方程,则得:
ˆ y b1 ( x1 x1 ) b2 ( x2 x2 ) y bk ( xk xk )
即:
ˆ 287.435 2.496 x1 0.195x2 2.901x3 y
回归平方和:
SSR 201569
残差平方和:
SSE 641325
复相关系数:
R 0.489
例1
回归方程检验
F 201569 / 3 4.19 641325 /(44 3 1)
F 0.05 (3, 40) 2.84
0
二次二元线性回归拟合
2 MSE 4.1 ppm
二次二元线性回归拟合——存在的 问题
虽然二次回归方程拟合较好,但残差并非 随机的分布在拟合线周围,而具有一定的 周期性。 事实上残差反映出其围绕回归线存在明显 的年循环, CO2浓度晚夏较低,而晚冬较 高。 通过Durbin-Watson统计检验显示,残差 数据存在相关性,即非独立。
方差分析——方差的无偏估计
预报量样本方差,自由度(n-1)
ST 2 SST / n 1
平均回归平方和(MSR),自由度为k:
MSR SSR / k
残差方差(MSE),自由度为(n-k-1):
2 MSE SST SSR / n k 1 SSE /(n k 1) se
包括谐波项、二次项的多元元线性回 归拟合
回归方程:
2 t 2 t ) 2.089sin( ) 12 12
[CO2 ] 315.9 0.0501t 0.000137t 2 1.711cos(
变量代换:
x1 t, x2 t 2 , x3 cos(2 t /12), x4 sin(2 t /12)
标准化变量回归方程:
ˆ z bz1xz1 bz 2 xz 2 y bz xzk
残差
残差公式:
ˆ ( xi1, xi 2 , , xik ), (i 1,2, , n) ei yi y
当 k 2 时,残差仍可以看作为距离,但回 归函数不再是一条直线(一元回归),而 是一个平面。因此残差为数据点距 ( x , x ) 平 面的垂直距离。
复相关系数(解释方差)
衡量一个预报量与多个预报因子之间的线性关系 的密切程度; 衡量了预报因子对预报量的线性解释方差的百分 率。
n n SSR SSE 2 2 ˆi y / yi y 1 R2 y SST i 1 SST i 1
0 R2 1 R的绝对值越大,表明回归效果越好。
分布对ENSO年以及非ENSO年进行拟合。
一元线性回归拟合
2 MSE 4.9 ppm
二次二元线性回归拟合
二元线性回归方程:
[CO2 ] 315.9 0.0501t 0.000136t 2
变量代换:
x1 t , x2 t 2
较好的解决了残差分布不均问题; 截距b 315.9 更好的估计了t=0时刻CO2浓度; 残差均匀分布在回归线附近。
回归方程的显著性检验
以上过程,帮我们确定了回归系数,建立了回归 方程,即确定了预报量与预报因子之间的线性关 系。 接下来的问题是,如何确定我们所建立的回归方 程是显著的,即回归方差与预报量方差的比例 (解释方差)如何? 在复相关系数相同情况下,由不同预报因子、不 同样本容量建立的不同回归方程,究竟哪个方程 具有的显著性更好?
Ti
bi / Ci SSE /(n k 1)
n t 1
, i 1, 2, , k
Ci [ ( xit xi ) 2 ]1
预报值的置信区间
预报值y的95%的置信区间可近似表示为:
ˆ 1.96 MSE y y ˆ 1.96 MSE y
MSR SSR / k
yi 0 1 xi1 2 xi 2 k xik ei , (i 1, 2, , n)
0 , 1 , 2 , , k 为k个待估计回归参数; x0 , x1 , x2 , , xk
为k个一般变量。
预报方程
含有k个预报因子的预报方程(线性回归方 程)为:
回归系数估计
类似于一元回归,即应使全部的预报量的 观测值与回归估计值的差值平方和达到最 小。即满足:
ˆi ) 2 Q ( yi y
i 1 n
最小
利用求极值的最小二乘原理:
Q 0 b0 Q 0 b1 Q 0 bk
建立包含 b , b , b , 正规方程
0 1 2
ˆd b1xd1 b2 xd 2 y
bk xdk
回归方程的其它形式——标准化形式
将距平变量多元线性回归方程两边除以预 报量y的标准差:
ˆy (x x ) (x x ) y b1 1 1 b2 2 2 sy sy sy bk ( xk xk ) sy sk ( xk xk ) bk sy sk s1 ( x1 x1 ) s2 ( x2 x2 ) b1 b2 sy s1 sy s2
则可化为标准化变量的多元线性回归方程:
ˆ z bz1xz1 bz 2 xz 2 y bz xzk
回归方程的几种形式
原始变量回归方程:
ˆ b0 b1x1 b2 x2 y bk xk
距平变量回归方程:
ˆd b1xd1 b2 xd 2 y
bk xdk
SSR与SST非常接近,表明拟合非常好;
包括谐波项、二次项的多元元线性 回归拟合
2 MSE 1. 4 ppm
回归分析需注意的事项
预报量与预报因子之间的关系常可能由于 某些条件的变化而发生变化;
如季节变化,位置变化等;
通常应依据不同的时间或位置而分别拟合;
如分别对夏季和冬季拟合;
气象变量之间的关系常常并不是理想的线 性关系,而可能是非线性的关系。 这种非线性关系可以通过变量代换过程转 化为线性关系处理。 严格意义上说,如果回归方程中的回归系 数是线性关系则不是非线性回归,而多元 线性回归是指回归方程中回归系数为线性。
变量代换
某些实例中,预报因子的数学形式由所研 究问题的物理实质决定。 通常,在没有物理过程的支持下,预报因 子的变量代换纯粹是经验性的。 无论物理本质如何,对于预报而言,最重 要的是给出好的拟合结果,而并不一定要 知道其所反映的物理本质。
回归方程的显著性检验
回归方程显著性检验的主要思想是检验预 报因子与预报量之间是否有确定的线性关 系。 如果预报因子与预报量之间无线性关系, 则建立原假设,参数的总体均值为0,即
H0 : 1 2
k 0
回归方程的显著性检验
建立检验统计量:
SSR / k MSR R2 / k F SSE /(n k 1) MSE (1 R 2 ) /(n k 1)
遵从自由度为k和n-k-1的F分布 在显著水平 下,如样本检验统计量计算 值 F F ,则拒绝原假设,即回归方程是显 著的。
预报因子显著性检验
检验表明回归方程显著时,并不表明每个预报因 子对回归方程的贡献均是显著的。因此可对每个 因子作用的显著性进行检验。 原假设,预报因子对回归方程无贡献:
Tr C0 C1r C2r C3Zr
Tu C0 C1u C2u C3Zu
Tc C1 (u r ) C2 (u r ) C3 (Zu Z r ) C1 C2 C3Z
多元线性回归中的预报因子的变量 代换
检验统计量:
bi2 / Ci Fi , i 1, 2, , k SSE /(n k 1)
n t 1
Ci [ ( xit xi )2 ]1
遵从分子自由度为1,分母自由度为n-k-1的F分布。
预报因子显著性检验
或者遵从自由度为n-k-1的t分布; T分布统计量为:
1 2
方差分析
总平方和(SST):
SST yi y
i 1 n 2
回归平方和(SSR):
ˆi y SSR y
n 2
残差平方和(SSE): 简单推得三者关系:
i 1
ˆi SSE ei yi y
2 i 1 i 1
n
n
2
SST SSR SSE
F F 0.05
预报因子检验
F1 4.297, F2 0.881, F3 8.07
F 0.05 (1, 40) 4.08
例2
在对城市热岛效应分析中
Tu r T Tc
Tc 为由地理位置差异(纬度、经度、海拔
高度)造成的温差
T C0 C1 C2 C3Z
常用的变量代换
幂函数,如 x2 x12 或 x2 x1 三角函数、指数、对数 联合以上函数的变量代换 虽然原预报因子为非线性函数,但经过变 量代换后可化为线性形式。
举例(图)
一元线性回归拟合
一元线性回归方程:
[CO2 ] 312.9 0.0992t
显示出很强的CO2浓度随时间增长的趋势; 截距仅仅估计出t=0时刻的CO2浓度; 残差显示出“弓形”变化,在记录的开始 和结束部分为正残差,而中间部分为负残 差。
第四章 回归分析
第二部分 多元回归
概述
多元回归是线性回归中最常用的回归模型之一。 在气象统计预报中,通常要寻找某个气象要素与 多个因子之间的关系。通常可利用多元回归建立 预报模型。 与一元回归类似的是:多元回归也只有一个预报 量。 与一元回归不同之处为:预报因子不止一个。
回归模型
类似于一元线性回归模型,多元线性回归 模型为:
例1
魏凤英书中例子(P219) 预报量y:长江中下游夏季(6-8月)降水 量 预报因子:
Hale Waihona Puke x1 : 冬季(12月-翌年2月)北太平洋涛动指数 x2 :1月太平洋地区极涡面积指数 x3
:5月西太平洋副高脊线
观测样本长度(1953-1996),n=44
例1
得到回归方程:
ˆi b0 b1xi1 b2 xi 2 y
回归系数 b0 , b1 , b2 , 回归常数 b0
bk xik , (i 1, 2,
, bk
, n)
为
0 , 1 , 2 , , k
的估计值;
当k=1时,为一元线性回归方程:
ˆi b0 b1xi , (i 1, 2, y , n)
, bk
的方程组
回归方程的其它形式——距平形式
由回归系数的正规方程的一个方程可以导 出:
b0 y b1x1 b2 x2 bk xk
代入回归方程,则得:
ˆ y b1 ( x1 x1 ) b2 ( x2 x2 ) y bk ( xk xk )
即:
ˆ 287.435 2.496 x1 0.195x2 2.901x3 y
回归平方和:
SSR 201569
残差平方和:
SSE 641325
复相关系数:
R 0.489
例1
回归方程检验
F 201569 / 3 4.19 641325 /(44 3 1)
F 0.05 (3, 40) 2.84
0
二次二元线性回归拟合
2 MSE 4.1 ppm
二次二元线性回归拟合——存在的 问题
虽然二次回归方程拟合较好,但残差并非 随机的分布在拟合线周围,而具有一定的 周期性。 事实上残差反映出其围绕回归线存在明显 的年循环, CO2浓度晚夏较低,而晚冬较 高。 通过Durbin-Watson统计检验显示,残差 数据存在相关性,即非独立。
方差分析——方差的无偏估计
预报量样本方差,自由度(n-1)
ST 2 SST / n 1
平均回归平方和(MSR),自由度为k:
MSR SSR / k
残差方差(MSE),自由度为(n-k-1):
2 MSE SST SSR / n k 1 SSE /(n k 1) se
包括谐波项、二次项的多元元线性回 归拟合
回归方程:
2 t 2 t ) 2.089sin( ) 12 12
[CO2 ] 315.9 0.0501t 0.000137t 2 1.711cos(
变量代换:
x1 t, x2 t 2 , x3 cos(2 t /12), x4 sin(2 t /12)
标准化变量回归方程:
ˆ z bz1xz1 bz 2 xz 2 y bz xzk
残差
残差公式:
ˆ ( xi1, xi 2 , , xik ), (i 1,2, , n) ei yi y
当 k 2 时,残差仍可以看作为距离,但回 归函数不再是一条直线(一元回归),而 是一个平面。因此残差为数据点距 ( x , x ) 平 面的垂直距离。
复相关系数(解释方差)
衡量一个预报量与多个预报因子之间的线性关系 的密切程度; 衡量了预报因子对预报量的线性解释方差的百分 率。
n n SSR SSE 2 2 ˆi y / yi y 1 R2 y SST i 1 SST i 1
0 R2 1 R的绝对值越大,表明回归效果越好。
分布对ENSO年以及非ENSO年进行拟合。
一元线性回归拟合
2 MSE 4.9 ppm
二次二元线性回归拟合
二元线性回归方程:
[CO2 ] 315.9 0.0501t 0.000136t 2
变量代换:
x1 t , x2 t 2
较好的解决了残差分布不均问题; 截距b 315.9 更好的估计了t=0时刻CO2浓度; 残差均匀分布在回归线附近。
回归方程的显著性检验
以上过程,帮我们确定了回归系数,建立了回归 方程,即确定了预报量与预报因子之间的线性关 系。 接下来的问题是,如何确定我们所建立的回归方 程是显著的,即回归方差与预报量方差的比例 (解释方差)如何? 在复相关系数相同情况下,由不同预报因子、不 同样本容量建立的不同回归方程,究竟哪个方程 具有的显著性更好?
Ti
bi / Ci SSE /(n k 1)
n t 1
, i 1, 2, , k
Ci [ ( xit xi ) 2 ]1
预报值的置信区间
预报值y的95%的置信区间可近似表示为:
ˆ 1.96 MSE y y ˆ 1.96 MSE y
MSR SSR / k
yi 0 1 xi1 2 xi 2 k xik ei , (i 1, 2, , n)
0 , 1 , 2 , , k 为k个待估计回归参数; x0 , x1 , x2 , , xk
为k个一般变量。
预报方程
含有k个预报因子的预报方程(线性回归方 程)为:
回归系数估计
类似于一元回归,即应使全部的预报量的 观测值与回归估计值的差值平方和达到最 小。即满足:
ˆi ) 2 Q ( yi y
i 1 n
最小
利用求极值的最小二乘原理:
Q 0 b0 Q 0 b1 Q 0 bk
建立包含 b , b , b , 正规方程
0 1 2
ˆd b1xd1 b2 xd 2 y
bk xdk
回归方程的其它形式——标准化形式
将距平变量多元线性回归方程两边除以预 报量y的标准差:
ˆy (x x ) (x x ) y b1 1 1 b2 2 2 sy sy sy bk ( xk xk ) sy sk ( xk xk ) bk sy sk s1 ( x1 x1 ) s2 ( x2 x2 ) b1 b2 sy s1 sy s2
则可化为标准化变量的多元线性回归方程:
ˆ z bz1xz1 bz 2 xz 2 y bz xzk
回归方程的几种形式
原始变量回归方程:
ˆ b0 b1x1 b2 x2 y bk xk
距平变量回归方程:
ˆd b1xd1 b2 xd 2 y
bk xdk
SSR与SST非常接近,表明拟合非常好;
包括谐波项、二次项的多元元线性 回归拟合
2 MSE 1. 4 ppm
回归分析需注意的事项
预报量与预报因子之间的关系常可能由于 某些条件的变化而发生变化;
如季节变化,位置变化等;
通常应依据不同的时间或位置而分别拟合;
如分别对夏季和冬季拟合;
气象变量之间的关系常常并不是理想的线 性关系,而可能是非线性的关系。 这种非线性关系可以通过变量代换过程转 化为线性关系处理。 严格意义上说,如果回归方程中的回归系 数是线性关系则不是非线性回归,而多元 线性回归是指回归方程中回归系数为线性。
变量代换
某些实例中,预报因子的数学形式由所研 究问题的物理实质决定。 通常,在没有物理过程的支持下,预报因 子的变量代换纯粹是经验性的。 无论物理本质如何,对于预报而言,最重 要的是给出好的拟合结果,而并不一定要 知道其所反映的物理本质。
回归方程的显著性检验
回归方程显著性检验的主要思想是检验预 报因子与预报量之间是否有确定的线性关 系。 如果预报因子与预报量之间无线性关系, 则建立原假设,参数的总体均值为0,即
H0 : 1 2
k 0
回归方程的显著性检验
建立检验统计量:
SSR / k MSR R2 / k F SSE /(n k 1) MSE (1 R 2 ) /(n k 1)
遵从自由度为k和n-k-1的F分布 在显著水平 下,如样本检验统计量计算 值 F F ,则拒绝原假设,即回归方程是显 著的。
预报因子显著性检验
检验表明回归方程显著时,并不表明每个预报因 子对回归方程的贡献均是显著的。因此可对每个 因子作用的显著性进行检验。 原假设,预报因子对回归方程无贡献:
Tr C0 C1r C2r C3Zr
Tu C0 C1u C2u C3Zu
Tc C1 (u r ) C2 (u r ) C3 (Zu Z r ) C1 C2 C3Z
多元线性回归中的预报因子的变量 代换