第二章 简单线性回归模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
需要研究经济变量之间数量关系的方法
显然,对旅游起决定性影响作用的是“ 显然,对旅游起决定性影响作用的是“中国居民的收 入水平”以及“入境旅游人数”等因素。 入水平”以及“入境旅游人数”等因素。 旅游业总收入” 居民平均收入” X1) “旅游业总收入”(Y)与“居民平均收入”(X1)或 入境旅游人数” X2)有怎样的数量关系呢? 者“入境旅游人数”(X2)有怎样的数量关系呢? 能否用某种线性或非线性关系式 Y= f ( X ) 去表现这 种数量关系呢? 具体该怎样去表现和计量呢 怎样去表现和计量呢? 种数量关系呢? 具体该怎样去表现和计量呢? 为了不使问题复杂化, 我们先在某些标准的(古典的) 为了不使问题复杂化, 我们先在某些标准的(古典的) 假定条件下,用最简单的模型,对最简单的变量间数 假定条件下,用最简单的模型, 量关系加以讨论
第一节 回归分析与回归函数 一、相关分析与回归分析
(对统计学的回顾) 对统计学的回顾)
1、经济变量之间的相互关系
性质上可能有三种情况: 性质上可能有三种情况 ◆确定性的函数关系 确定性的函数关系 Y=f (X)
可用数学方法计算
◆不确定的统计关系 相关关系 不确定的统计关系—相关关系 不确定的统计关系 Y= f(X)+ε ( ) ◆没有关系 没有关系
Y
E (Y X i )
Xi
12
X
回归函数分为:总体回归函数和样本回归函数 回归函数分为:
二、总体回归函数(PRF) )
举例: 假如已知由100个家庭构成的总体的数据 100个家庭构成的总体的数 举例 假如已知由100个家庭构成的总体的数据
每月家庭可支配收入X 2000 2500 3000 3500 4000 4500
计量经济学
第 二 章 简单线性回归模型
1
引子:中国旅游业总收入将超过3000亿美元吗? 3000亿美元吗 引子:中国旅游业总收入将超过3000亿美元吗?
未来我国旅游需求将快速增长, 未来我国旅游需求将快速增长,根据中国政府所制定的 远景目标, 2020年 中国入境旅游人数将达到2.1 2.1亿人 远景目标,到2020年,中国入境旅游人数将达到2.1亿人 国际旅游外汇收入580亿美元,国内旅游收入2500 580亿美元 2500亿 次;国际旅游外汇收入580亿美元,国内旅游收入2500亿 美元。 2020年 中国旅游业总收入将超过3000亿美元, 3000亿美元 美元。到2020年,中国旅游业总收入将超过3000亿美元, 相当于国内生产总值的8% 11%。 8%至 相当于国内生产总值的8%至11%。
9
4、回归分析
回归的古典意义 古典意义: 古典意义
高尔顿遗传学的回归概念 父母身高与子女身高的关系) ( 父母身高与子女身高的关系) 子女的身高有向人的平均身高"回归" 子女的身高有向人的平均身高"回归"的趋势
回归的现代意义 现代意义: 现代意义
一个被解释变量对若干个 解释变量依存关系的研究
回归的目的(实质): 目的(实质) 目的
年中国旅行社发展研究咨询报告》 (来源:《2008年中国旅行社发展研究咨询报告》) 来源: 年中国旅行社发展研究咨询报告 (参考现状:第一产业占GDP的15%,建筑业占GDP 的7%) 参考现状:第一产业占 的 ,建筑业占 )
●什么决定性因素能使中国旅游业总收入超过3000亿美元? 什么决定性因素能使中国旅游业总收入超过3000亿美元 什么决定性因素能使中国旅游业总收入超过3000亿美元 ●旅游业的发展与这种决定性因素的数量关系究竟是什么? 旅游业的发展与这种决定性因素的数量关系究竟是什么? 旅游业的发展与这种决定性因素的数量关系究竟是什么 ●怎样具体测定旅游业发展与这种决定性因素的数量关系 怎样具体测定旅游业发展与这种决定性因素的数量关系? 怎样具体测定旅游业发展与这种决定性因素的数量关系
6500
3521 3954 4108 4345 4812
每 月 家 庭 消 费 支 出 Y
E (Y X i ) 1591 1915
2092
2586
2754
3039
3396 3853
4036
4148
13
消费支出的条件期望与收入关系的图形
E (Y X i )
Xi
对于本例的总体, 对于本例的总体,家庭消费支出的条件期望 E (Y X i ) 与家庭收入 X i 基本是线性关系, 可以把家庭消费支 基本是线性关系, 出的条件均值表示为家庭收入的线性函数: 出的条件均值表示为家庭收入的线性函数:
6 6
3、相关程度的度量—相关系数
总体的全部数据都已知 都已知, 如果 X 和 Y 总体的全部数据都已知, X 和 Y 的方差和 协方差也已知, 协方差也已知,则 Cov( X , Y ) X和Y的总体线性相关系数: ρ = 和 的总体线性相关系数:
Var ( X )Var (Y )
-----Y的方差 其中: 其中: Var ( X ) -----X 的方差 Var (Y ) -----Y的方差 Cov ( X , Y ) -----X和Y的协方差 和 的协方差
(ε为随机变量 为随机变量) 为随机变量 可用统计方法分析 不用分析
4
2、相关关系
◆ 相关关系的描述
最直观的描述方式——坐标图(散布图、散点图)) 坐标图(散布图、散点图)) 最直观的描述方式 坐标图
25 20 15 10 5 0 0 2 4 6 8 10 12
25 20 15 10 5 0 0 2 4 6 8 10 12
函数关系
11.2 11 10.8 10.6 10.4 10.2 10 0 2 4 6 8 10
相关关系(线性 相关关系 线性) 线性
35 30 25 20 15 10 5 0 0 5 10 15
相关关系(非线性 相关关系 非线性) 非线性
没有关系
5
相关关系的类型 类型
●
从涉及的变量数量看
简单相关 多重相关(复相关) 多重相关(复相关)
Y ●被解释变量 Y 的条件期望: 条件期望:
对于 X 的每一个取值, 的每一个取值, 对 Y 所形成的分布确 定其期望或均值, 定其期望或均值,称
E (Y X i )
为 Y 的条件期望或条件均
Xi
X
表示。注意: 的条件期望是随X 值,用 E (Y X i ) 表示。注意:Y的条件期望是随X的变动而变动的
7
ρ
的数值是既定的, X 和 Y 的数值是既定的,总体相关系
X和Y的样本线性相关系数: 和 的样本线性相关系数:
的样本观测值, __和 的 如果只知道 X 和 Y 的样本观测值,则X和Y的样本线性 __ ∑ ( X i − X )(Yi − Y ) 相关系数为: 相关系数为: r = XY __ __ ( X i − X ) 2 ∑ (Yi − Y ) 2 ∑
1312 1340 1400 1548 1688 1738 1800 1902 1530 1619 1713 1750 1814 1985 2041 2186 2200 2312 1631 1726 1786 1835 1885 1943 2037 2078 2179 2298 2316 2387 2498 2689 1843 1974 2006 2265 2367 2485 2515 2689 2713 2898 2923 3053 3187 3286 2037 2210 2325 2419 2522 2665 2799 2887 2913 3038 3167 3310 3510 2277 2388 2526 2681 2887 3050 3189 3353 3534 3710 3834
X 其中: i 和 Yi 分别是变量X和Y的样本观测值, 其中: 分别是变量 和 的样本观测值, 的样本观测值
__
X 和 Y 分别是变量 X 和Y 样本值的平均值
__
注意: 注意
rXY
是随抽样而变动的随机变量。 是随抽样而变动的随机变量。
相关系数较为简单, 相关系数较为简单, 也可以在一定程度上测定变量 间的数量关系, 间的数量关系,但是对于具体研究变量间的数量规律 性还有局限性。 性还有局限性。
11
都有Y的条件期望 ●回归线:对于每一个X的取值 X i ,都有 的条件期望 回归线:对于每一个 的取值 与之对应, 代表Y的条件期望的点的轨迹形成 E (Y X i ) 与之对应 , 代表 的条件期望的点的轨迹形成 的直线或曲线称为回归线。 的直线或曲线称为回归线。 回归函数:被解释变量Y ●回归函数:被解释变量 的条件期望 E (Y X i ) 随 解释变量X的变化而有规律 解释变量 的变化而有规律 的变化,如果把 的条件期 的变化,如果把Y的条件期 望表现为 X 的某种函数 E(Y X i ) = f ( X i ) , 这个函数称为回归函数。 这个函数称为回归函数。
15
2.总体回归函数的表现形式 2.总体回归函数的表现形式
●条件期望表现形式 条件期望表现形式 例如Y的条件期望 E (Y X i ) 是解 例如 的条件期望 释变量X的线性函数,可表示为: 释变量 的线性函数,可表示为: 的线性函数
特点: 特点:
●总体相关系数只反映总体两个变量 ●对于特定的总体来说, 对于特定的总体来说,
X 和 Y 的线性相关程度
是客观存在的特定数值。 数 是客观存在的特定数值。 的全部数值通常不可能直接观测, ●总体的两个变量 X 和 Y 的全部数值通常不可能直接观测,所 以总体相关系数一般是未知的。 以总体相关系数一般是未知的。
E (Y X i ) = α + βX i
14
1. 总体回归函数的概念
前提:假如已知所研究的经济现象的总体的被解释变量Y 前提:假如已知所研究的经济现象的总体的被解释变量 所研究的经济现象的总体的被解释变量 和解释变量X的每个观测值(通常这是不可能的! 和解释变量 的每个观测值(通常这是不可能的!),那 的每个观测值 么,可以计算出总体被解释变量Y的条件期望 E (Y X i ) , 可以计算出总体被解释变量 的条件期望 并将其表现为解释变量X的某种函数 并将其表现为解释变量X的某种函数
(单位 元) 单位:元 单位 6000
3515 3721 3865 4026 4165 4380 4580
5000 5500
2469 2889 3090 3156 3300 3321 3654 3842 4074 4165 2924 3338 3650 3802 4087 4298 4312 4413
●
ห้องสมุดไป่ตู้
从变量相关关系的表现形式看
线性相关——散布图接近一条直线 散布图接近一条直线 线性相关 非线性相关——散布图接近一条曲线 非线性相关 散布图接近一条曲线
●
从变量相关关系变化的方向看
正相关——变量同方向变化,同增同减 变量同方向变化, 正相关 变量同方向变化 负相关——变量反方向变化,一增一减 变量反方向变化, 负相关 变量反方向变化 不相关
8
对相关系数的正确理解和使用
● 都是相互对称的随机变量, X和Y 都是相互对称的随机变量, rXY
= rYX
线性相关系数只反映变量间的线性相关程度, ● 线性相关系数只反映变量间的线性相关程度 , 不 能说明非线性相关关系 样本相关系数是总体相关系数的样本估计值, ● 样本相关系数是总体相关系数的样本估计值 , 由 于抽样波动,样本相关系数是随抽样而变动的随机变量, 于抽样波动,样本相关系数是随抽样而变动的随机变量, 其统计显著性还有待检验
E (Y X i ) = f ( X i )
这个函数称为总体回归函数( 这个函数称为总体回归函数(PRF) 总体回归函数 ) 本质: 本质: 总体回归函数实际上表现的是特定总体中被解释变 量随解释变量的变动而变动的某种规律性。 量随解释变量的变动而变动的某种规律性。 计量经济学的根本目的是要探寻变量间数量关系的规律, 计量经济学的根本目的是要探寻变量间数量关系的规律,也 就要努力去寻求总体回归函数。 就要努力去寻求总体回归函数。
由解释变量去估计被解释变 量的平均值
10
明确几个概念(为深刻理解“回归”)
●被解释变量Y的条件分布和条件概率: 被解释变量Y 条件分布和条件概率: 当解释变量X取某固定值时(条件) 的值不确定, 当解释变量X取某固定值时(条件),Y 的值不确定,Y 条件分布。 的不同取值会形成一定的分布, 的不同取值会形成一定的分布,这是 Y 的条件分布。 X 取某固定值时, 取不同值的概率称为条件概率 条件概率。 取某固定值时,Y 取不同值的概率称为条件概率。