第1章 一元线性回归模型(双变量回归分析:一些基本概念)..
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 P(Y 55 | X 80) 5
1 P(Y 150 | X 260 ) 7
对Y的每一个条件概率分布,我们所计算出它的均 值(mean或average value),称为条件均值 (conditional mean)或条件期望(conditional expectation),记做: E(Y | X X i )
175
70
80
94
103
116
130
144
152
165
178
75
85
98
108
118
135
145
157
175
180
—
88
—
113
125
140
—
160
189
185
—
源自文库
—
—
115
—
—
—
162
—
191
共计
325
46
445
707
678
750
685
1043
966
1211
表2.1的含义:它给出了以X的给定值为条件的Y值 的条件分布(conditional distribution) 因为表2.1代表一个总体,我们可以从表中计算出 给定X的Y的概率,这在统计上叫做什么? 比如:
第1章 一元线性回归模型
前导:双变量回归分析的
一些基本概念
回归分析是要根据解释变量的已知或给定值, 去估计或预测因变量的总体均值 假如我们要研究每周家庭消费支出Y与每周 可支配的家庭收入X之间的关系 假设这个国家的家体的总体由60户家庭组成。 可以按收入的高低把这60户家庭分组,每一组的 组内收入相差不大。假定我们得到的观察值如表 2.1所示
E(Y | X i ) f ( X i )
(2.2.1)
这个方程就叫做(双变量的)总体回归函数(PRF) 或简称总体回归(population regression, PR),它表明Y 的均值或平均响应(average response)是如何随X而不同
f ( X i ) 的具体函数形式如何确定是一个经验问题,已知
E(Y | X i ) 1 2 X i
2
这样的回归函数,就不是线性的。
(2)对参数为线性
即Y的条件期望 E(Y | X i ) 是参数 i 的一个线性函数; 它既可以是也可以不是变量X的线性函数
这样以来,
E(Y | X i ) 1 2 X i
2
就是一个线性回归模型, 而
一个例子
表2.1 x y
80 100
X:每周家庭收入($)
120 140 160 180 200 220 240 260
55
65
79
80
102
110
120
135
137
150
每 周 家 庭 消 费 支 出
60
70
84
93
107
115
136
137
145
152
65
74
90
95
110
120
140
140
155
我们现在再回到表 2.1 和图 2.1 ,可见,随着家庭收 入↑,家庭消费支出平均地看也会↑;但是对具体的某一 个家庭的消费支出却不一定随收水平↑而↑ 给定收入水平 X i 的个别家庭的消费支出,聚集在收 入为 X i 的所有家庭的平均消费支出的周围,也就是围绕 着它的条件均值 个别的Yi围绕它的期望值的离差(deviation)可以表 示如下:
比如,给定X=80
1 1 1 1 1 E (Y | X 80) 55 60 65 70 75 65 5 5 5 5 5
可以由表 2.1绘制如 右图的散点 图
散点图表明对应于各个X值的Y的条件分布,它表 明随着收入的增加,消费支出平均地说也在增加。 Y的条件均值随 X增加而增加。图中的粗圆点(大 的黑点)表示Y的各个条件均值 Y的条件均值落在一条正斜率的直线上,这条线叫 总体回归线(population regression line or curve),它 代表Y对X的回归 从几何意义上讲,总体回归曲线就是,当解释变 量取给定值时,因变量的条件均值或条件期望的轨迹
的经济理论可以给我们一些指导。假如, E(Y | X i ) 是 X i 的线性函数:
E(Y | X i ) 1 2 X i
(2.2.2)
1 和 2 为 回 归 系 数 ( regression coefficients ) , ( 2.2.2 )称为线性总体回归函数,或简称线性总体回归。
ui Yi E(Y | X i ) 或
Yi E(Y | X i ) ui (2.4.1)
离差 ui 是一个不可观测的随机变量,称之为随机干扰 (stochastic disturbance)或随机误差项(stochastic error)
从计量经济学上看,对于给定的X水平,个别家庭的支出 可以分解为两个部分: ①表示收入相同的所有家庭的平均消费支出,称为系 统 性 ( systematic ) 或 确 定 性 ( deterministic ) 成 分 (component)。 ②ui为随机的或非系统性成分(nonsystematic component)。它是代表所有可能影响Y的,但又没有包 括到回归模型中的替代(surrogate)或代理(proxy)变 量 假定 E(Y | X i ) 对X i 是线性的,(2.4.1)式便可以写 为: Yi 1 2 X i ui (2.4.2) 它表示消费支出Y线性地依赖于相应的收入X i 和随机 扰动项
E(Y | X i ) 1 2 X i
则不是线性的。
在今后的课程中,我们讲的“线性”指的是对参数为 线性的情况,对解释变量 X i 则可以是也可以不是线性的。
如:
E(Y | X i ) 1 2 X i
2
是一个LRM(linear regression model)
PRF的随机设定
图2.1可以画成图2.2的形式 可见,对应于每一个Xi都有一个Y值的总体和 一个相应的条件均值。而回归直线(曲线)正好 穿过这些条件均值
总体回归函数(PRF,population regression function) 由图2.1和图2.2可见,每一个条件均值都是 X i 的一个函 数,即:
在我们的课程中,回归,回归方程和回归模型将 不加以区分,作为同义词使用
“线性”一词的含义 ( 2.2.2 )式被称为“线性”总体回归,其中的 “线性”的含义是什么? 它可以作两种解释: (1)对变量为线性
即:Y的条件期望值是 X 的线性函数,从几何意 i 义上看,这样的回归曲线是一条直线。
诸如: