气象统计方法 第四章 一元线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方差分析表明,预报量y的变化可以看成由前期 因子x的变化所引起的,同时加上随机因素e变化的 影响,这种前期因子x的变化影响可以归为一种简 单的线性关系,这部分关系的变化可以用回归方差 的大小来衡量。如果回归方差大,表明用线性关系 解释y与x的关系比较符合实际情况,回归模型比较 好。
有时候,两边同时乘以n变成各变量离差平方和的关 系。
例1:
1)计算回归系数,确定方程
X变化一个单 位,气温降低 0.23度。
2)回归方程显著性检验:
3)计算预报值得置信区间,作出预测:
X和y离差积之和 总离差平方和 x离差平方和
S xy ( xi x )( yi y ) xi yi nx y
i 1 i 1
n
计算检验统计量F 确定显著性水平,并根据分子自由度1 和分母自由度n-2找出临界值F 作出决策:若F >F ,拒绝H0;若F<F , 不能拒绝H0
7.回归系数的显著性检验
气象中经常使用回归方程的距平形 式,对回归方程的显著性检验可以只对 因子的回归系数进行检验。
b t c
Q n2
c [ ( xi x ) ]
或者写为一般的回归方程
ˆ a bx y
a是截距,b是斜率。
ˆ i 与 yi 对所有的 x i ,若 y 的 偏差最小,就认为(1)所确定的直线能最 好地代表所有实测点的散布规律。 为了消除偏差符号的影响,可以用偏差 的平方来反映偏差的绝对值偏离情况。
y
( xn , yn ) ( x2 , y2 ) ( x1 , y1 )
ˆ ˆx ˆ y 0 1
}
( x i , y i)
ei = yi^ - yi
x
全部观测值与回归估计值的离差平方和记为
ˆi )2 Q ( a , b) ( y i y
t 1 n
它刻画了全部观测值与回归直线偏离程度。 显然,Q值越小越好。a和b是待定系数,根据 微积分学中的极值原理,要求:
b
计算出x和y的相关系数,然后可以求得F.
注意: 对于一元线性回归来说,因为F的相关 系数表达式开方就是相关系数t检验的表达 式,故回归方程的检验与相关系数的检验一 致。
r F 2 1 r n2
2
t
r 1 r
2
n2
线性关系检验的步骤概括如下:
提出假设
– H0:1=0, 线性关系不显著
上式还可以表示为:
2 Sy ˆ
1 F 2 Se ( n 2)
2 Sy ˆ
r 2 1 r n2
2 2 2 Sy Sy ˆ Se
2
S
2 y
r
2 xy
由于回归系数b已经知道,根据
rxy
Sx b Sy
n 1 2 2 x ( x ) i i n i 1 i 1 n n 1 2 2 y ( y ) i i n i 1 i 1 n
判决系数R2 (coefficient of determination)
1. 回归平方和占总离差平方和的比例; 2. 反映回归直线的拟合程度; 3. 取值范围在 [ 0 , 1 ] 之间百度文库 4. R2 1,说明回归方程拟合的越好; R20,说明回归方程拟合的越差; 5. 判决系数等于相关系数的平方,即R2 =r2
因为 yi 可以看成遵从 N (0 xi ; 2 ) 的分
布,所以其95%的置信区间为 E ( yi ) 1.96 。
ˆ
Q n2
n 1 Q 2 2 ˆ ˆi ) ( yi y n 2 i 1 n2
ˆi 1.96 ˆ y
ˆ 是总体均方差(误差均方差)的无偏估计量。
S xx
Q S yy
2 S xy
S xx
b
S xy
2 Sx
回归分析与相关分析的区别
1. 相关分析中,变量 x 变量 y 处于平等的地位; 回归分析中,变量 y 称为因变量,处在被解释 的地位,x 称为自变量,用于预测因变量的变化。 2. 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量。 3. 相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控 制。
2.基本概念 一元回归处理的是两个变量之 间的关系,即一个预报量和一个预 报因子之间的关系。
3.原理
一般来说,对样本量为n的预报量y与预 报因子x的一组样本,如果认为y与x是一种 线性统计关系,预报量的估计量与x有如下 关系: ˆ a bx i 1,2,, n (1) y
i i
2
S xy S
2 x
x
i 1
2 i
上述求回归系数的方法称为最小二乘法
距平形式的回归方程: 即当变量为距平时,回归方程可以不用求 a,因为a=0,回归直线通过原点。
ˆ y b( x x ) y
标准化距平形式的回归方程:
b S xy S
2 x
Sy Sx
rxy
y * rxy x *
3.残差平方和(Q)
反映除 x 以外的其它因素对 y 取值的影响,也称为 不可解释的平方和或剩余平方和。
n 2 ( yi a bxi ) 0 i 1 n 2 ( y a bx ) x 0 i i i i 1
5. 相关系数与线性回归---(1)因为回归方差不可能大于预报量的 方差,可以用它们的比值来衡量方程的拟 合效果。即:
n
b S 2 Sy
2
2 x
b代入上式得:
b
S xy S
2 x
S S
2 ˆ y 2 y
r
2 xy
上式含义: 表明了预报因子x对预报量y方差的线 性关系程度,这一比值又称为解释方差(方 差贡献率)。 也可以说明相关系数的含义:它是衡 量两个变量线性关系密切程度的量,又被 称为回归方程的判决系数。
i 1
n
2 1
遵从自由度为n-2的t分布;或者根据F 分布与t分布的关系有:
b F c
2
Q n2
2
b U c
U 1 F Q ( n 2)
b F c
2
Q n2
上式与之前方差检验的公式完全一 致,但 在检验单个变量在回归方程中的 作用时更为常用。
8.预报的置信区间(95%置信区间)
回归系数也可直接表示为:
a y bx n n n 1 xi yi ( xi )( yi ) n i 1 i 1 i 1 n n b 1 2 2 xi ( xi ) n i 1 i 1
x y
i 1 n i
n
i
nx y nx
气象统计方法
主讲:温 娜
南京信息工程大学 大气科学学院 2014年9月
本课件主要参考南信大李丽平老师的课件
第四章 一元线性回归(huang28)
主要内容
概述 基本概念 原理 方差分析 相关系数和线性回归 回归方程的显著性检验
1.概述 回归分析是用来寻找若干变量之 间的统计联系一种方法,利用找到 的统计关系对某一变量作出未来时 刻的估计,称为预报值。包括线性 回归和非线性回归,常用的线性回 归。
(2)回归系数b与相关系数之间的关系
b
r与b同号。
S xy S
2 x
Sy Sx
rxy
6. 回归方程的显著性检验
U 1 F Q ( n 2)
原假设回归系数b为0的条件下,上述统计量遵 从分子自由度为1,分母自由度为(n-2)的F分布, 若线性相关显著,则回归方差较大,因此统计量F 也较大;反之,F较小。对给定的显著性水平 , 查表得到F临界值 F ,如果 F F ,则拒绝原假 设,认为线性相关显著。
S S
2 ˆ y 2 y
1 2 ˆi y ) (y U n i 1 n 1 S yy 2 ( yi y ) n i 1
n
S S
2 ˆ y 2 y
2 ( a bx a b x ) i i 1 2 ( y y ) i i 1 n
n
2 2 b ( x x ) i i 1 n 2 ( y y ) i i 1
如:为了预报某地某月平均气温 (预报量)未来时刻的变化,选择预报 前期已发生的多个有关的气象要素(预 报因子),利用回归分析方法分析多个 预报因子和预报变量之间的相互关系, 建立统计关系方程式,最后利用其对未 来时刻的气温作出预报估计。
回归模型的类型
回归模型
一元回归 线性回归 非线性回归 多元回归 线性回归 非线性回归
n
n
S yy
(y
i 1
n
i
y)
2
y
i 1
2 i
ny 2
S xx ( xi x ) xi2 nx 2
2 i 1 i 1
n
n
一 组 计 算 公 式
ˆ i y) U (y
i 1
n
2
ˆ)2 Q ( yi y
i 1
n
U
2 S xy
Q 0 a
Q 0 b
满足上面关系的Q值最小。整理得到:
n 2 ( yi a bxi ) 0 i 1 n 2 ( y a bx ) x 0 i i i i 1
上式称为求回归系数的标准方程组。展 开: n n
na b xi y i i 1 i 1 n n n 2 a x b x xi y i i i i 1 i 1 i 1
4.回归问题的方差分析 (1)意义 评价回归方程的优劣。 (2)预报量的方差可以表示成回归估计值 的方差(回归方差)和误差方差(残 差方差)之和。
2 2 2 Sy Sy S ˆ e
即:
预报量方差
回归方差
误差方差
n n 1 n 1 1 2 2 2 ˆ ˆ ( yi y ) ( yi y ) ( yi yi ) n i 1 n i 1 n i 1
作业
利用冬季热带太平洋Nino3.4区平均海 温异常指数,建立与江苏省夏季降水异常 的一元线性回归预测模型。据观测2007年 冬Nino3.4海温异常为 -1.2度,对江苏省夏 季降水异常进行预测。
ˆ i y) U (y
i 1
n
2
2 ˆ Q ( yi y ) i 1
n
S yy U Q
U和Q分别称为回归平方和及残差平方和, S yy 称为总 离差平方和。
1.总离差平方和( S yy )
反映因变量的 n 个观察值与其均值的总离差。
2.回归平方和(U)
反映自变量 x 的变化对因变量 y 取值变化的影响,或 者说,是由于 x 与 y 之间的线性关系引起的 y 的取 值变化,也称为可解释的平方和。