双变量回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
双变量回归模型
一个人为的例子
●研究每周家庭消费支出Y对可支配收入X的关系。
●将家庭划分为收入差不多的10组。
每周家庭收入(美元)
●表格给出了以X的定值为条件的Y的条件分布。
●计算给定X的Y的概率,即P(Y/X)。
●计算条件均值,即E(Y/X=
X)
i
●作图
●平均的说,随着X 的增加,Y也在增加。
● 条件均值落在一根有正斜率的直线上,总体回归线(population regression line ), Y 对X 的回归。 ● 对每一个i
X 都有Y 值的一个总体和相应的均值,回
归线是穿过了这些条件均值的线。
总体回归函数(PRF )的概念
● 图中看到,每一条件均值E (Y/i
X )都是i
X 的一个
函数,并且是线性函数。
i i i X X f X Y E 21)()/(ββ+==
● 1β和2β是未知但固定的参数,被分别称为截距和斜率参数。
“线性”一词的含义
● 对变量为线性
非线性的例子:2
21)/(i i X X Y E ββ+=
● 对参数为线性
非线性的例子:i i X X Y E 21)/(ββ+= ● 本课程中,只对参数是线性的。
PRF 的随机设定
● 随着家庭收入的增加,家庭消费平均的说也增加。 ● 但某一个别家庭的消费支出却不一定。
● 个别家庭的消费支出聚集在收入为Xi的所有家庭的平均消费支出的周围。
i
i i u X Y E Y +=)/(
● E(Y/X i )代表相同收入水平的所有家庭的平均消费支出,称为系统性(systematic )成分,ui称为随机或非系统性(non-systematic)成分。 ● 假定E(Y/X i )是对Xi为线性的,则
i i i i i u X u X Y E Y ++=+=21)/(ββ
● 0)/(=i i X u E
随机干扰项的意义
1.理论的含糊性 2.数据的欠缺 3.核心变量与周边变量 4.人类行为的内在随机性 5.糟糕的替代变量 6.节省原则
7.错误的函数形式
样本回归函数
●以上讨论局限在与X值相对应的Y值总体
●现在我们考虑抽样问题
样本:
YX
7080
65100
90120
95140
110160
115180
120200
140220
155240
150260
●我们能从样本预测整个总体中对应于选定X的平均
每周消费支出Y吗?
●从N个不同的样本会得到N个不同的SRF,并且这
些SRF不大会是一样的。
● 能不能设计一种规则使SRF尽可能的“接近”PRF
● 样本回归函数(sample regression function, SRF )
i
i X Y 21ˆˆˆββ+= ● SRF 随机形式:
i i
i u X Y ˆˆˆ21++=ββ ● 回归分析的主要目的是根据i i
i u X Y ˆˆˆ21++=ββ来估计i i i u X Y ++=21ββ
● 图形
普通最小二乘法 ●
i
i
i i X Y Y u 21i ˆˆY ˆˆββ--=-= ● 选择一个SRF,使得残差和)ˆ(ˆi
i i Y Y u -=∑∑尽可能小(图)
● 但正负残差可以相互抵消
● 最小二乘准则是要定出SRF使得:
2
21i 22)(Y )ˆ(ˆi i
i i X Y Y u ββ--=-=∑∑∑
消费-收入的例子中,估计到的结果:
i
i X Y 5091.04545.24ˆ+=
- OLS 估计量是由可观测的量(X 和Y )表达的,因此这些量是可以计算的 - 这些量是点估计量
● 回归线的性质:
1.它通过Y和X的样本均值。
2. 估计的Y(=i
Y ˆ)等于实测的Y均值 3. 残差i u ˆ的均值为零。 4. 离差形式
5. 残差i u
ˆ和预测的Yi值不相关 6. 残差i u ˆ和Xi不相关
最小二乘法的基本假定
● 回归分析的目的是从1ˆβ和2ˆβ推断1β和2
β ● 需要对Yi的产生方式作出某些假定。
经典线性回归模型(CLRM)10个假设: 1. 线性回归模型。回归模型对参数是线性的。
2. 在重复抽样中X是固定的,即假定X是非随机的。
3. 干扰项ui的均值为零,即ui的条件均值为零,
0)/(=i i X u E
围绕均值分布,正负相抵,u 对Y 没有影响。 4. 同方差性或ui的方差相等。
2
2i 2 )/E(u ]/)([)/(σ==-=i i i i i X X u E u E X u Var
Homoscedasticity and Heteroscedasticity (图形 )
方差随收入增加而增加,富裕家庭的方差大,可靠性则越来越小。
5. 各个干扰项之间无自相关。
)/()/E(u ]/)(][/)([),/,cov(i ==--=j j i j j j i i i j i j i X u E X X u E u X u E u E X X u u
无序列相关,正相关,负相关。(图形)
6. U i 和X i 的协方差为零。
0),(=i i X u Cov
- 干扰u 和变量X 是不相关的
- 因为如果u 和X 相关,就不可能评价它们各自对Y 的影响。
7. 观测次数n 必须大于待估计的参数个数。换言之,观测次数必须大于解释变量的个数。