经典线性回归模型解析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4. 回归分析
回归的古典意义: 高尔顿遗传学的回归概念 ( 父母身高与子女身高的关系)
回归的现代意义: 一个应变量对若干解释变量 依存关系 的研究
回归的目的(实质): 由固定的解释变量去 估计应变量的平均值
注意几个概念
● Y 的条件分布
当解释变量 X 取某固定值时(条件),Y 的值不 确定,Y 的不同取值形成一定的分布,即Y 的条
件分布。
Y
● Y 的条件期望
对于 X的每一个取值, 对 Y 所形成的分布确
定其期望或均值,称
为 Y的条件期望或条
件均值 E(Y Xi )
Xi
X
回归线与回归函数
●回归线:
对于每一个 X 的取值, Y 都有 Y 的条件期望
E(Y Xi ) 与之对应,
代表这些 Y 的条件期
望的点的轨迹所形成
的直线或曲线,称为
例:100个家庭构成的总体 (单位:元)
1000 820 888 932
每 960 月 家 庭 消 费 支 出 Y
E(Y Xi ) 900
1500 962 1024 1121 1210 1259 1324
1150
2000 1108 1201 1264 1310 1340 1400 1448 1489 1538 1600 1702
第二章 经典线性回归模型: 双变量线性回归模型
❖ 回归分析概述 ❖ 双变量线性回归模型的参数估计 ❖ 双变量线性回归模型的假设检验 ❖ 双变量线性回归模型的预测 ❖ 实例
引子: 中国旅游业总收入将超过3000亿美 元吗?
从2004中国国际旅游交易会上获悉,到2020年,中国旅游 业总收入将超过3000亿美元,相当于国内生产总值的8% 至11%。(资料来源:国际金融报2004年11月25日第二版)
1874 1906 1068 2066 2185 2210 2289 2313 2398 2423 2453 2487 2586
◆是什么决定性的因素能使中国旅游业总收入到2020年达到 3000亿美元?
◆旅游业的发展与这种决定性因素的数量关系究竟是什么?
◆怎样具体测定旅游业发展与这种决定性因素的数量关系?
一、回归与相关
(对统计学的回顾)
1. 经济变量间的相互关系
◆确定性的函数关系 Y f (X )
◆不确定性的统计关系—相关关系
Y f (X ) (ε为随机变量)
◆没有关系
2.相关关系
◆ 相关关系的描述 相关关系最直观的描述方式——坐标图(散布图)
Y

••

• •

• •

X
◆相关关系的类型 ● 从涉及的变量数量看
简单相关 多重相关(复相关)
● 从变量相关关系的表现形式看
线性相关——散布图接近一条直线 非线性相关——散布图接近一条曲线
回归线。
Xi
X
回归线与回归函数
回归函数:应变量 Y 的条件期望 E(Y Xi )随解释 变量 X 的的变化而有规律的变化,如果把 Y 的条件期望 E(Y Xi )表现为 X的某种函数
E(Y Xi ) f ( Xi )
这个函数称为回归函数。 回归函数分为:总体回归函数和样本回归函数
举例:假如已知100个家庭构成的总体。
● 从变量相关关系变化的方向看
正相关——变量同方向变化,同增同减 负相关——变量反方向变化,一增一减 不相关
3.相关程度的度量—相关系数
总体线性相关系数:
Cov( X ,Y )
Var( X )Var(Y )
其中:Var(X ) ——X 的方差;Var(Y ) ——Y的方差
Cov( X ,Y ) ——X和Y的协方差
每 960 月 家 庭 消 费 支 出 Y
E(Y Xi ) 900
1500 962 1024 1121 1210 1259 1324
1150
2000 1108 1201 1264 1310 1340 1400 1448 1489 1538 1600 1702
1400
每月家庭可支配收入X
2500 1329
wenku.baidu.com
样本线性相关系数:
XY
__
__
( Xi X )(Yi Y )
__
__
( Xi X )2 (Yi Y )2
其中:X X

i

YY__i分分别别是是变变量量
X X
和 Y 的样本观测值 和 Y 样本值的平均值
散点图与相关系数 值的对应关系
图3 r = 0.92
图4 r = 0.99
使用相关系数时应注意
1400
每月家庭可支配收入X
2500 1329
3000 1632
3500 1842
4000 2037
4500 2275
1365 1410 1432 1520 1615 1650 1712 1778 1841 1886 1900 2012
1726 1786 1835 1885 1943 2037 2078 2179 2298 2316 2387 2498 2589
1874 1906 1068 2066 2185 2210 2289 2313 2398 2423 2453 2487 2586
2110 2225 2319 2321 2365 2398 2487 2513 2538 2567 2610 2710
2388 2426 2488 2587 2650 2789 2853 2934 3110
3000 1632
3500 1842
4000 2037
4500 2275
1365 1410 1432 1520 1615 1650 1712 1778 1841 1886 1900 2012
1726 1786 1835 1885 1943 2037 2078 2179 2298 2316 2387 2498 2589
● X和 Y都是相互对称的随机变量
● 线性相关系数只反映变量间的线性相关程度,不 能说明非 线性相关关系
● 样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统 计显著性有待检验
● 相关系数只能反映线性相关程度,不能确定因果 关系,不能说明相关关系具体接近哪条直线
计量经济学关心:变量间的因果关系及隐藏在随 机性后面的统计规律性,这有赖于回归分析方法
1650 1900 2150 2400 2650
5000 2464 2589 2790 2856 2900 3021 3064 3142 3274
5500 2824 3038 3150 3201 3288 3399
2900 3150
例:100个家庭构成的总体 (单位:元)
1000 820 888 932
相关文档
最新文档