934-回归分析概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
934-回归分析概述
•
•
•
一. 变量间的两类关系
1. 确定性关系
——也即函数关系,即
Y = ƒ(X) ; Y = ƒ(X1, X2, ···, Xp) 或 F(X, Y) = 0; F(X1, X2, ···, Xp, Y) = 0 例:价格不变时商品销售收入与销售量的关系。
Y
销 售 收 入
14
§8.2 一元线性回归
一. 一元线性回归模型
设被解释变量 Y 与 解释变量 X 间存在线形相关关 系,则
Y = 0 + 1X + ; ~N(0, 2 )
其中 X 是普通变量。
则
Y ~ N( 0+ 1X, 2 )
称 Y 的条件期望
E( Y|X ) = 0 + 1X
为 Y 对 X 的回归。
(8.2-1)
价 格 x i 4 .04 .04 .85 .46 .06 .07 .07 .27 .68 .09 .01 0 消 费 量 y i 3 .03 .82 .62 .82 .02 .91 .92 .21 .91 .21 .51 .6
5y
4
3
Y= 0+ 1X
2
1
x
0 0 1 2 3 4 5 6 7 8 9 10 11 12 8
15
二. 回归方程
记 βˆ0 , βˆ1 分别是参数 0 和 1 的点估计,并记
Yˆ 为 Y 的条件期望 E( Y|X ) 的点估计,则由(8.2-1) 式, 有
Yˆˆ0ˆ1X
(8.2-2)
称(5.2-2) 式为回归方程。 并称 βˆ0 , βˆ1 为回归方程的 回归系数。
对每一 xi 值,由回归方程可以确定一个回归值
0, 1 —— 模型中的未知参数
—— 随机误差项
9
随机误差项产生的原因
(1) 模型中忽略的其他因素对 Y 的影响; (2) 模型不准确所产生的偏差; (3) 模型中包含了对 Y 无显著影响的变量; (4) 对变量的观察误差; (5) 其他随机因素的影响。
10
线性回归模型的数据结构 当 X 取不完全相同的值 x1, x2, ···, xN 时,得
与 σ 2 及样本容量 N 有关,而且与各 xi 取值的分散程 度有关。 在给定样本容量下,xi 的取值越分散,则估
家Y
. .
庭 消 费 支 出
Y=
......
b0 + b1X ..
.
.
. .
.. .
.
. .
..
O
非确定性关系
X
家庭收入 7
【案例1】商品价格与消费量的关系
以三口之家为单位,某种食品在某年各月的家庭平 均月消费量 Y (kg)与其价格 X (元/kg) 间的调查数据如 下,试分析该食品家庭平均月消费量与价格间的关系。
11
例 解释截距和斜率一名统计学教授打算运用学生 为准备期末考试而学习统计学的小时数(X)预测其 期末考试成绩(Y)。依据上学期上课班级中收集的 数据建立的回归模型如下:
如何解释截距和斜率? 解 截距=35.0表示当学生不为期末考试做准备的话, 期末考试平均成绩是35.0。斜率=3表示每增加1小时 学习时间,期末考试平均成绩就变化+3.0。换句话说, 每增加1小时学习时间,期末成绩就增加3.0。
O
Y 与 X 间的确定性关系
X 销售量 6
2. 非确定性关系
——指变量间虽存在着相互影响和相互制约关系,
但由于许多无法预计和控制的因素的影响,使变量间
的关系呈现不确定性。 即不能由一个或若干变量的值
精确地确定另一变量的值。
但通过大量观察, 可以发现非确定性关系的变量间
存在着某种统计规律性——称为相关关系或回归关系。
到 Y 的一组相应的观察值 y1, y2, ···, yN 。显然, 每一对观察值 (xi, yi) 都应满足(5.1-1)式。 因此 一元线性回归模型有如下的数据结构:
yi = 0 + 1xi + i ; i =1, 2, ···, N (8.1-2) 其中 i 是其他因素和试验误差对 yi 影响的总和。
。。
。
。
。。 。
。。 。
。
yi
yˆ i
0
xi
x
18
四. 最小二乘估计的性质
可以证明,在满足经典假设的条件下
1. βˆ0和βˆ1 分别是参数 0 和 1 的最小方差无偏估计。
2. βˆ0 和βˆ1 的方差分别为:
D(βˆ0)σ2[N 1(xxi 2x)2],
D(βˆ1)
σ2
(xi
x)2
以上两式说明, 回归系数 βˆ0 和βˆ1 的估计精度不仅
12
三. 回归模型的经典假设条件
1. 各 i ~ N( 0, 2 ),且相互独立;
2. 解释变量是可以精确观察的普通变量(非随机变 量);
3. 解释变量与随机误差项是各自独立对被解释变 量产生影响的。
称满足以上条件的回归模型为经典回归模型。 本章仅讨论经典回归模型。
但在经济领域中,经济变量间的关系通常是不会完 全满足上述条件的。
例如家庭消费支出 Y 与家庭收入 X 间的回归模型就 不会是同方差的。
13
四. 回归分析的主要内容和分析步骤 1. 根据问题的实际背景、专业知识或通过对
样本数据的分析,建立描述变量间相关关系的 回归模型;
2. 利用样本数据估计模型中的未知参数,得 到回归方程;
3. 对模型进行检验; 4. 利用通过检验的回归方程对被解释变量进 行预测或控制。
反映了全部观察值与回归直线间总的偏离程度。 显Leabharlann Baidu,Q 的值越小,就说明回归直线对所有样本数据的
拟和程度越好。 所谓最小二乘法,就是要使
Q(ˆ0,ˆ1) 为最小。
只要令
Q ˆ 0
0
;
Q ˆ1
0
,
就可求出 βˆ 0 , βˆ1 。
17
最小二乘法原理示意图
y
要找一条直线,使
(yi yˆi)2 min 。
yˆi βˆ0βˆ1xi
16
三. 回归模型的参数估计
回归模型中的参数估计,采用的是“最小二乘法”, 其原理如下:
Y 的各观察值 yi 与回归值 yˆ i 之差 yi yˆi 反映了 yi 与回归直线之间的偏离程度, 从而全部观察值与回归值
的残差平方和
Q (β ˆ0,β ˆ1) (yiy ˆi)2(yiβ ˆ0β ˆ1xi)2
二. 线性回归模型
由图可知,该食品家庭月平均消费量 Y 与价格 X 间基本呈 线性关系。这些点与直线
Y = 0 + 1X
间的偏差是由其他一些无法控制的因素和观察误差引起的。
因此可以建立 Y 与 X 之间关系的如下线性回归模型
Y = 0 + 1X +
X —— 解释变量(自变量)
(8.1-1)其中
Y —— 被解释变量(因变量)
•
•
•
一. 变量间的两类关系
1. 确定性关系
——也即函数关系,即
Y = ƒ(X) ; Y = ƒ(X1, X2, ···, Xp) 或 F(X, Y) = 0; F(X1, X2, ···, Xp, Y) = 0 例:价格不变时商品销售收入与销售量的关系。
Y
销 售 收 入
14
§8.2 一元线性回归
一. 一元线性回归模型
设被解释变量 Y 与 解释变量 X 间存在线形相关关 系,则
Y = 0 + 1X + ; ~N(0, 2 )
其中 X 是普通变量。
则
Y ~ N( 0+ 1X, 2 )
称 Y 的条件期望
E( Y|X ) = 0 + 1X
为 Y 对 X 的回归。
(8.2-1)
价 格 x i 4 .04 .04 .85 .46 .06 .07 .07 .27 .68 .09 .01 0 消 费 量 y i 3 .03 .82 .62 .82 .02 .91 .92 .21 .91 .21 .51 .6
5y
4
3
Y= 0+ 1X
2
1
x
0 0 1 2 3 4 5 6 7 8 9 10 11 12 8
15
二. 回归方程
记 βˆ0 , βˆ1 分别是参数 0 和 1 的点估计,并记
Yˆ 为 Y 的条件期望 E( Y|X ) 的点估计,则由(8.2-1) 式, 有
Yˆˆ0ˆ1X
(8.2-2)
称(5.2-2) 式为回归方程。 并称 βˆ0 , βˆ1 为回归方程的 回归系数。
对每一 xi 值,由回归方程可以确定一个回归值
0, 1 —— 模型中的未知参数
—— 随机误差项
9
随机误差项产生的原因
(1) 模型中忽略的其他因素对 Y 的影响; (2) 模型不准确所产生的偏差; (3) 模型中包含了对 Y 无显著影响的变量; (4) 对变量的观察误差; (5) 其他随机因素的影响。
10
线性回归模型的数据结构 当 X 取不完全相同的值 x1, x2, ···, xN 时,得
与 σ 2 及样本容量 N 有关,而且与各 xi 取值的分散程 度有关。 在给定样本容量下,xi 的取值越分散,则估
家Y
. .
庭 消 费 支 出
Y=
......
b0 + b1X ..
.
.
. .
.. .
.
. .
..
O
非确定性关系
X
家庭收入 7
【案例1】商品价格与消费量的关系
以三口之家为单位,某种食品在某年各月的家庭平 均月消费量 Y (kg)与其价格 X (元/kg) 间的调查数据如 下,试分析该食品家庭平均月消费量与价格间的关系。
11
例 解释截距和斜率一名统计学教授打算运用学生 为准备期末考试而学习统计学的小时数(X)预测其 期末考试成绩(Y)。依据上学期上课班级中收集的 数据建立的回归模型如下:
如何解释截距和斜率? 解 截距=35.0表示当学生不为期末考试做准备的话, 期末考试平均成绩是35.0。斜率=3表示每增加1小时 学习时间,期末考试平均成绩就变化+3.0。换句话说, 每增加1小时学习时间,期末成绩就增加3.0。
O
Y 与 X 间的确定性关系
X 销售量 6
2. 非确定性关系
——指变量间虽存在着相互影响和相互制约关系,
但由于许多无法预计和控制的因素的影响,使变量间
的关系呈现不确定性。 即不能由一个或若干变量的值
精确地确定另一变量的值。
但通过大量观察, 可以发现非确定性关系的变量间
存在着某种统计规律性——称为相关关系或回归关系。
到 Y 的一组相应的观察值 y1, y2, ···, yN 。显然, 每一对观察值 (xi, yi) 都应满足(5.1-1)式。 因此 一元线性回归模型有如下的数据结构:
yi = 0 + 1xi + i ; i =1, 2, ···, N (8.1-2) 其中 i 是其他因素和试验误差对 yi 影响的总和。
。。
。
。
。。 。
。。 。
。
yi
yˆ i
0
xi
x
18
四. 最小二乘估计的性质
可以证明,在满足经典假设的条件下
1. βˆ0和βˆ1 分别是参数 0 和 1 的最小方差无偏估计。
2. βˆ0 和βˆ1 的方差分别为:
D(βˆ0)σ2[N 1(xxi 2x)2],
D(βˆ1)
σ2
(xi
x)2
以上两式说明, 回归系数 βˆ0 和βˆ1 的估计精度不仅
12
三. 回归模型的经典假设条件
1. 各 i ~ N( 0, 2 ),且相互独立;
2. 解释变量是可以精确观察的普通变量(非随机变 量);
3. 解释变量与随机误差项是各自独立对被解释变 量产生影响的。
称满足以上条件的回归模型为经典回归模型。 本章仅讨论经典回归模型。
但在经济领域中,经济变量间的关系通常是不会完 全满足上述条件的。
例如家庭消费支出 Y 与家庭收入 X 间的回归模型就 不会是同方差的。
13
四. 回归分析的主要内容和分析步骤 1. 根据问题的实际背景、专业知识或通过对
样本数据的分析,建立描述变量间相关关系的 回归模型;
2. 利用样本数据估计模型中的未知参数,得 到回归方程;
3. 对模型进行检验; 4. 利用通过检验的回归方程对被解释变量进 行预测或控制。
反映了全部观察值与回归直线间总的偏离程度。 显Leabharlann Baidu,Q 的值越小,就说明回归直线对所有样本数据的
拟和程度越好。 所谓最小二乘法,就是要使
Q(ˆ0,ˆ1) 为最小。
只要令
Q ˆ 0
0
;
Q ˆ1
0
,
就可求出 βˆ 0 , βˆ1 。
17
最小二乘法原理示意图
y
要找一条直线,使
(yi yˆi)2 min 。
yˆi βˆ0βˆ1xi
16
三. 回归模型的参数估计
回归模型中的参数估计,采用的是“最小二乘法”, 其原理如下:
Y 的各观察值 yi 与回归值 yˆ i 之差 yi yˆi 反映了 yi 与回归直线之间的偏离程度, 从而全部观察值与回归值
的残差平方和
Q (β ˆ0,β ˆ1) (yiy ˆi)2(yiβ ˆ0β ˆ1xi)2
二. 线性回归模型
由图可知,该食品家庭月平均消费量 Y 与价格 X 间基本呈 线性关系。这些点与直线
Y = 0 + 1X
间的偏差是由其他一些无法控制的因素和观察误差引起的。
因此可以建立 Y 与 X 之间关系的如下线性回归模型
Y = 0 + 1X +
X —— 解释变量(自变量)
(8.1-1)其中
Y —— 被解释变量(因变量)