3回归分析法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

( y y)
2
又被称为总的离差平方和,记为TSS(total sum of
squares)
21
• 推导:
因为
ˆ y) ( y y ˆ) ( y ˆ y) e y y (y
所以总方差可以分解为:
2 ˆ ˆ ) 2 ( y ˆ y )( y y ˆ) ( y y ) ( y y ) (y y 2 2
ˆ b ˆ x 成立时, ˆ b 可以证明,当 y 0 1
从而有:
ˆ y )( y y ˆ) 0 ( y
2
ˆ y) ( y y ˆ) ( y y) ( y
2 2
22
(2)回归变差ESS (或回归平方和)
2 是因变量的样本回归值与其样本均值的 ˆ ( y y )
如:作物收成对气温、降雨量、阳光和施肥量的依 赖关系
(2)按因变量和自变量之间的变动形式:
• 线性回归 • 非线性回归
3
(3)一元线性回归和多元线性回归 • 一元线性回归 是指两个相关变量之间的关系可以用数学中的线性组 合来描述 • 多元线性回归 是指三个或三个以上相关变量之间的关系可以用数学 中的线性组合来描述
3 回 归 预 测 法
3.1 一元线性回归预测法
3.2 多元线性回归预测法 3.3 非线性回归预测法
3.4 应用回归预测时应注意的问题
1
回归分析预测法
• “回归”的来历
生物统计学家高尔顿(F. Galton) 1887年,回复(Reversion)— 回归 (Regression)
1888年,相关 (Correlation)
25
• 判定规则: 判定系数 R 2的取值范围为 0 R 2 1 ,判定系数 R 2 的值 越接近于1,回归平方和在总的平方和所占的比重就(3)i 与 μ j相互独立,即: Cov( i , j ) 0 i j; i, j 1,2,, n
(4)随机误差项 i与自变量 X i不相关,即 Cov( X i , j ) 0
(5) i 服从正态分布。
(2)计算T统计量: t 其中,
b1 Sb
~
t n 2
SE
2
Sb
x x
n2
SE
ˆ y y
2
18
(3)检验规则:给定显著性水平
,查表得出临界值
则拒绝原假设 H 0 : b1 0 若
t t / 2
接受备择假设 H1 : b1 0
自变量X的变化能显著地解释因变
,称为残差平方和或剩余变差,记为RSS(residual sum of squares)
23
• 总变差(总的离差平方和)可以分解为回归变差(回
归平方和)与剩余变差(残差平方和)两部分。
即:TSS=ESS+RSS • 在因变量的总变动中,被样本回归方程所解释的部分 越多说明样本观测值与回归直线的拟合效果越好。
用最小二乘法进行参数估计 ,得到的估计表达式为:
b1
x x y y x x
2
b0 y b1 x
11
• 例3-1 以我国城市居民家庭收入人均可支配收入和恩格尔系
数的关系为例来说明回归模型参数的估计方法,资料见表3-1 表3-1 我国城镇居民家庭人均可支配收入和恩格尔系数
b0 和b1
— 是未知却固定的总体参数,称为回归参数,
6
也分别被称为截距和斜率
(二)随机误差项的意义和标准假定
• 随机误差项 i是集体影响着因变量Y的,它是模型中被 省略的全部变量的替代物。 • 随机误差项是无法直接观测的,通常设其满足以下标 准假定:
i 的期望为0,即: E i 0 (1)
(3)经济计量检验
随机误差项 的序列相关检验 异方差检验 解释变量的多重共线性检验
16
(一)统计检验
1. T检验:回归系数显著性检验
• b1不为0 :自变量和因变量之间存在线性关系 • 回归参数b1不为0的t检验
17
• 检验程序: (1)提出假设:
H 0 : b1 0 H1 : b1 0
• 从表3-2可以得出:
x
i
67560.8
y
i
700.5
x y
i
i
2954410.56
2 x i 379726435.5
x 4504.05
y 46.70
15 2954410.56 67560.8 700.5 ˆ b1 0.0027 2 15 379726435.5 (67560.8)
2894.44
2809.00 2530.09 2500.00 2510.01 2381.44 2171.56 1998.09 1772.41 1552.36 1459.24 1421.29 1376.41 33284.23
91492.28
107409.80 129643.22 174810.00 214578.30 236138.32 240469.98 242501.97 246453.40 247432.00 262036.72 290395.56 314318.62 2954410.56 13
4
3.1 一元线性回归预测法
一元线性回归预测法
• 是指成对的两个变量数据分布大体上呈直线趋势时, 运用合适的参数估计方法,求出一元线性回归模型,
然后根据自变量与因变量之间的关系,预测因变量的
趋势。 • 很多社会经济现象之间都存在相关关系,因此,一元 线性回归预测有很广泛的应用。进行一元线性回归预 测时,必须选用合适的统计方法估计模型参数,并对
15
三、一元线性回归模型的检验
• 只有当所建立的回归模型是正确的、显著有效时,才可以利用它
来进行经济预测。
(1)经济检验
检验估计参数b0,b1的符号、大小是否与经济理论和实际经验相 符合,即是否具有经济意义。
(2)统计检验
R检验:可决系数和相关系数 T检验:对回归参数的显著性检验 F检验:对回归方程的显著性检验
53.8
53.0 50.3 50.0 50.1 48.8 46.6 44.7 42.1 39.4 38.2 37.7 37.1 700.5
2892040.36
4107107.56 6642990.76 12223414.44 18344089.00 23414953.21 26628696.09 29431710.01 34269316.00 39438400.00 47054112.16 59333127.84 71778172.84 379726435.52
量Y的变化,存在线性关系
则接受原假设 若
H 0 : b1 0
t t / 2
认为因变量和自变量之间不存在线
性关系,模型不能用来预测
19
例3-2:对例3-1所建立的一元线性回归模型中的可支配收
入的回归参数
ˆ 进行显著性检验 b 1
由表3-2中的数据可计算出 带入以上公式得出:
Sb1 0.000172204
7
(三)样本回归模型
ˆ b ˆ x e i 1,2,, n • 样本回归模型: y b i 0 1 i i
ˆ 、b ˆ 和 e 是根据所获得的一个样本对总体回归参数 b b 0 1 i 0
b1 和 i的估计,n为样本的容量, ei 被称为残差。
• 样本回归方程:
ˆ b ˆx ˆi b y 0 1 i
2970.25 2937.64
xiyi
74877.55 81852.84
1991
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 合计
1700.6
2026.6 2577.4 3496.2 4283.0 4838.9 5160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 67560.8
模型及其参数进行统计检验。
5
一、一元线性回归模型的建立
(一)一元线性总体回归模型:
yi b0 b1 xi i
机变量;
i=1, 2, …, n
X—自变量(解释变量),可控制、无测量误差的非随
Y — 因变量(被解释变量),随机变量
i — 随机误差(干扰)项,随机变量,代表所有未在
模型中考虑的、作用可以相互抵消的随机因素的影响
年份 人均可支配收入(元) (xi) 1373.9 1510.2 1700.6 2026.6 2577.4 3496.2 4283.0 4838.9 恩格尔系数(%) (yi) 54.5 54.2 53.8 53.0 50.3 50.0 50.1 48.8 年份 人均可支配收入(元) (xi) 5160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 恩格尔系数(%) (yi) 46.6 44.7 42.1 39.4 38.2 37.7 37.1
i
测点与样本回归线垂直方向的距离,当样本给定时,可以
通过拟合样本回归线计算 ei 的数值
9
二、一元线性回归模型参数的估计
• 最小二乘法(OLS):
(1)对于给定的一个样本,有
接近其观测值
,为使估计值
ˆi y
yi ,残差 ei 越小越好。
(2)用样本的所有残差的平方和来综合反映残差的总量
大小。
10

离差平方和,反映了因变量的总变动中被样本回归
方程
ˆ b ˆ x 所解释的部分,称为回归变差或 ˆi b y 0 1 i
回归平方和,记为ESS(explained sum of squares) (3)剩余变差RSS (或残差平方和)
2 ˆ ( y y ) e Q 是因变量的回归残差的平方和 2
0.0027 tb1 15.6791 0.000172204
因为
t b1 3.012 ,所以拒绝原假设
• 它表明在1%的显著性水平下,人均可支配收入对恩格 尔系数有显著的影响
20
2. R 检验:回归方程的拟合优度
可决系数(R2)
• 衡量自变量与因变量关系密切程度的指标,表示自变量 解释了因变量变动的百分比。 (1)总变差 因变量的样本观测值与其样本均值的离差平方和,反 映了因变量的总变异程度,即
1989 1990 1991 1992 1993 1994 1995 1996
1997 1998 1999 2000 2001 2002 2003
12
• 表3-2 计算表
年份
1989 1990
xi
1373.9 1510.2
yi
54.5 54.2
x i2
1887601.21 2280704.04
yi2
ˆ i 为 yi 的估计: y
8
• 样本回归模型与总体回归模型的区别:
(1)总体回归线只有一条,而抽取的不同样本能拟合出
不同的样本回归线; (2)总体回归模型中的回归参数 b0 、b1 是未知的常数,
ˆ、 ˆ 是随机变量,其值随所抽取样本的 而样本回归参数 b 0 b
1
不同而变化 (3)总体回归模型中的 i 是实际观测点与总体回归线垂直 方面的距离且不可观测,而样本回归模型中的 e 是实际观
ˆ 46.70 (0.0027) 4504.05 58.8609 b 0
• 样本回归方程为:
ˆi 58.8609 0.0027 xi y
14
• 经济解释: (1)1989年到2003年,我国城镇居民家庭人均可支配
收入每增加1元,其恩格尔系数就会平均降低0.0027个
百分点。 (2)由于恩格尔系数不可能为0,所以截距项58.8609 只是回归方程的截距项,没有具体意义。
• 现代解释 回归分析是通过利用数学模型来研究一个变量(因变量) 对另一个或多个变量(自变量)的依赖关系,从而通过 后者的已知值来估计或预测前者的总体均值或个别值的 方法。
2
分类:
(1)按变量的个数: • 一元回归:两个变量之间的回归分析 如:产品需求对价格变化实际反映
• 多元回归:三个或三个以上变量之间的关系
24
(4)判定系数 R 2
用回归平方和占总的离差平方和的比重来衡量模型 的拟合优良程度,称为判定系数,记作 即:
2 ˆ ( y y )
ESS RSS R 1 1 2 TSS TSS ( y y )
2
• 判定系数 R 2 的定义是在回归模型为线性模型即模型包含常数项且 回归参数是采用最小二乘估计的条件下给出的。当这些条件不满 足时,用 R 2去评判模型的优劣就会存在问题。
相关文档
最新文档