第2章 双变量回归分析:一些基本概念
古扎拉蒂《计量经济学基础》第2章
古扎拉蒂 《计量经济学基础》
第二章 双变量回归分析: 一些基本思想
主讲老师:李庆海
2.1 本章要点
●一些基本概念 ●总体回归函数 ●“线性”函数的定义 ●PRF的随机设定 ●随机干扰项的意义
●样本回归函数
2.2 重难点导学
一、一些基本概念
条件概率:给定X的Y的概率,记为P(Y|X)。
条件均值(如图2-1所示)
Y
条件均值
149 101 65
E(Y|Xi)
80
140 220
X
图2-1 总体回归线
总体回归曲线
思考:给定一个X,就对应一个(惟一 的)E(Y|X)。因此,(X,E(Y|X))可以 表示成平面上的一个点。 总体回归曲线(Popular Regression Curve):Y的条件均值的轨迹。即Y对X的回 归。 总体回归曲线的几何意义:当解释变量给 定值时因变量的条件期望值的轨迹。
已知给定X=1,Y取5个不同的值:1、2、3、4、
5。 问:Y取每个值的概率有多大?
古典概率模型:取每个值的概率相等。因此有:
P(Y=1|X=1)=1/5; P(Y=2|X=1)=1/5;
P(Y=3|X=1)=1/5;
P(Y=4|X=1)=1/5; P(Y=5|X=1)=1/5;
词总是指对参数为线性的一种回归(即参数
只以它的1次方出现)。
Y= 1+2X+u, lnY= 1+2lnX+u 是线性的!
Y= 1ln(2X+u)不是线性的!
模型对参数为线性?
模型对变量为线性?
是
不是
是
LRM
LRM
不是
NLRM
第二章 双变量模型
概念: 概念:
在给定解释变量Xi条件下被解释变量Yi的期 望轨迹称为总体回归线 总体回归线(population 总体回归线 regression line),或更一般地称为总体回 总体回 归曲线(population regression curve)。 归曲线 相应的函数: E (Y | X i ) = f ( X i ) 称为(双变量)总体回归函数(population 总体回归函数( 总体回归函数 regression function, PRF)。 )
变量间的关系
经济变量之间的关系,大体可分为两类: (1)确定性关系 函数关系:研究的是确定 确定性关系或函数关系 确定性关系 函数关系: 现象非随机变量间的关系。
相关关系: (2)统计依赖 相关关系: 研究的是非确定现 )统计依赖或相关关系 象随机变量间的关系。
回归与相关
相关分析的主要目的在于研究变量之间统计 线性关联的程度,将变量均视为随机变量。 回归分析的主要目的在于研究变量之间统计 关联的形式,目的在于揭示被解释变量如何依赖 解释变量的变化而变化的规律,将解释变量视为 确定性的,而将被解释变量视为随机变量。
二、回归分析的基本概念
回归分析(regression analysis)是研究一个变量关 回归分析 是研究一个变量关 于另一个( 于另一个(些)变量的具体依赖关系的计算方法 和理论。 和理论 其用意:在于通过后者的已知或设定值, 其用意:在于通过后者的已知或设定值,去估计和 预测前者的(总体)均值。 (或)预测前者的(总体)均值 这里:前一个变量被称为被解释变量(Explained 被解释变量( 被解释变量 Variable)或应变量(Dependent Variable), 应变量( ) 应变量 ), 后一个(些)变量被称为解释变量 解释变量 (Explanatory Variable)或自变量 ) 自变量 (Independent Variable)。 )
第二章 双变量线性回归模型(计量经济学,南京审计学院)
n ,„ ,2
x
1 )0 x ( 2 2 ) tx
2 2 i 2 t
2 t
X
2 t
x
X 2 tx
2
三. 高斯--马尔柯夫定理
(Gauss--Markov Theorem)
对于满足统计假设条件(1)--(4)的线性回 归模型 Yt = + Xt + ut , ,普通最小二 乘估计量 ( OLS估计量) 是最佳线性无偏 估计量(BLUE, The Best Linear Unbiased Estimator)。
2 ˆ et (Yt Yt ) 2
最小二乘法
最小二乘法就是选择一条直线,使其残差平方和达 到最小值的方法。即选择 ˆ ,使得 ˆ和
2 ˆ S et (Yt Yt ) 2 2 ˆ ˆ (Yt X t )
达到最小值。
运用微积分知识,使上式达到最小值的必要条件 为:
第二章 双变量线性回归模型
(简单线性回归模型)
(Simple Linear Regression Model)
第一节 双变量线性回归模型的估计
一. 双变量线性回归模型的概念
设 Y = 消费, X = 收入, 我们根据数据画出散点图
Y * 这意味着 Y = + X (1) 我们写出计量经济模型 Y = + X + u (2) 其中 u = 扰动项或 误差项 Y为因变量或被解释变量 X为自变量或解释变量 和 为未知参数
双变量线性回归模型的统计假设
(1). E(ut) = 0, t= 1, 2, ...,n 即各期扰动项的均值(期望值)为0. (2). E(uiuj) = 0 i j 即各期扰动项互不相关. (3). E(ut2 ) = 2 , t= 1, 2, ...,n 即各期扰动项方差是一常数. (4). 解释变量Xt 为非随机量 即Xt的取值是确定的, 而不是随机的. (5). ut ~ N( 0, 2 ) , t= 1, 2, ...,n 即各期扰动项服从正态分布。
第二讲双变量回归模型及其估计问题
第二讲 双变量回归模型及其估计问题双变量回归分析基本概念四、 正态性假定:经典正态线性回归模型 五、 双变量回归的区间估计七、 回归分析的应用:预测问题 八、 双变量线性回归模型的延伸回归分析的基本性质三、 双变量回归分析估计问题六、 双变量回归的假设检验 4、第一节回归分析的性质•、回归释义回归分析是关于研究一个叫应变量的变量对另一个或几个中解释变量的变量的依赖关系,其目的在于通过后者的已知值或设定值去估计和预测前者的数值。
二、统计关系与确定关系统计关系处理的是随机变量,而确定关系处理的是确定性的变量。
三、回归与因果关系回归分析研究的是一个变量对另一个或几个称为解释变量的依赖关系,却不一定是因果关系。
四、回归与相关相关分析的主要目的在于研究变量之间统计线性关联的程度,将变量均视为随机变量。
回归分析的主要目的在于研究变量之间统计关联的形式,目的在于揭示被解释变量如何依赖解释变量的变化而变化的规律,将解释变量视为确定性的,而将被解释变量视为随机变量。
第二节双变量回归分析的基本概念(1)•、一个人为的例子例:假定一个总体由60户家庭组成。
为了研 究每周家庭消费支出Y 与每周税后可支配收入 X 的关系,将他们划分为10组。
第二节二、总体回归函数(PRF)E(Y\X)=f(X)E(Y\X) = + 卩?X三、线性的含义对变量为线性E(Y\X) = fij + fi2X对参数为线性E(Y\X) = /3j + /32lnX1、总体回归函数的随机设定u = y-E(KIX)Y=E(Y\X)+ u系统变化部分非系统变化部分四、随机干扰项的意义干扰项“是从模型中省略下来的而又集体地影响着F的全部变量的替代物。
1.理论的含糊性 5.糟糕的替代变量2.数据的欠缺 6.节省原则3.核心变量与周边变量7.错误的函数形式4.人为行为的内在随机性五、样本回归函数(SRF)E(YIX)二Q + QX/V /v /VY =氏+卩字Y 仝 +£I =B\+B/+狂i i残差第三节双变量回归模型的估计问题•、普通最小二乘法通过样本数据按照残差平方和最小的原则来估计总体回归模型中的参数的方法叫普通最小二乘法,又称最小平方法。
双变量回归模型基本概念
• The height of the children of unusually tall or unusually short parents tends to move toward the average height of the population.
3
• 回归的现代含义:
13
再次强调数据的质量
• Because of all these and many other problems, the researcher should always keep in mind that the results of research are only as good as the quality of the data.
6
几个例子
• 1. Reconsider Galton’s law of universal regression.
• In the modern view our concern is finding out how the average height of sons changes given the fathers’ height.
问题:能从一次抽样中获得总体的近似的 信息吗?如果可以,如何从抽样中获得总 体的近似信息?
30
31
32
画两条样本回归线尽可能拟合这些散点
33
• 图中直线(曲线)称为样本回归线 • 在总体回归函数(总固体回归线)不知情的情况
下,无法判断哪一条样本线能代表真实的总体线 • 姑且他们都能代表总体回归线 • 但因抽样波动,他们最多只是真实总体线的一个
• 不满意的结论,并不一定是模型不够优美 ,有时是数据质量问题。
第2章:线性回归的基本思想:双变量模型
因此,给定收入X的值Xi,可得分数Y的条件均值 ( conditional mean ) 或 条 件 期 望 ( conditional
expectation):
2-17
E(Y|X=Xi)
2.2 总体归函数(PRF):假想一例
描出散点图发现:随着收入的增加,成绩“平均 地说”也在增加,且Y的条件均值均落在一根正斜 率的直线上。这条直线称为总体回归线。
皮尔逊收集过一些家庭群体的1千多名成员的身 高记录。他发现,对于一个父亲高的群体,儿 辈的平均身高低于他们父辈的身高,而对于一 个父亲矮的群体,儿辈的平均身高则高于其父 辈的身高。这样就把高的和矮的儿辈一同“回 归”到所有男子的平均身高。用加尔顿的话说, 这是“回归到中等”。
2-2
2.1 回归的含义
对变量间统计依赖关系的考察主要是通过相关分析 (correlation analysis) 和 回 归 分 析 (regression analysis)来完成的:
正相关
线性相关 不相关 相关系数:
统计依赖关系
2-4
负相关 1 XY 1
正相关 非线性相关 不相关
负相关
有因果关系 无因果关系
回归分析 相关分析
经济变量之间的关系,大体可分为两类: (1)确定性关系或函数关系:研究的是
确定现象非随机变量间的关系。
(2)统计依赖或相关关系:研究的是非确 定现象随机变量间的关系。
2-3
2.1 回归的含义
例如:
函数关系: 圆面积 f ,半径 半径2
统计依赖关系/统计相关关系:
农作物产量 f 气温, 降雨量, 阳光, 施肥量
2-23
2.3 总体回归函数的统计或随机设定
计量经济学 第二章 双变量回归分析
节省原则
错误的函数形式
2.6 样本回归函数
PRF是一个理想化的概念,人们很少得知他们所研究的整个总体
200
150
100
50 60 80 100 120 140 160 180 200 220 240 260
2.2 总体回归函数的概念
2.3 “线性”一词的含义
对变量为线性
对参数为线性
2.4 PRF的随即设定
2.5 随机干扰项的意义
理论的含糊性 数据的欠缺 核心变量与周边变量 人类行为的内在随机性 糟糕的替代变量
200 120 136 140 144 145
678
113
750
125
220 135 137 140 152 157 160 162 685 1043 137 149
240 137 145 155 165 175 189
260 150 152 175 178 180 185 191 966 1211 161 173
双变量回归分析:
一些基本思想
一个假设的例子
条件期望值 无条件期望值 总体回归曲线 总体回归曲线就是(当)解释变量取给定值时因变量的条件均值 或期望的轨迹。
Weekly family consumption expenditure Y,$
80 55 60 65 70 75
100 65 70 74 80 85 88
120 79 84 90 94 98
Total Conditional means of Y,E(Y|X)
325
65
462
77
445
89
140 80 93 95 103 108 113 115 707 101
第2章_线性回归的基本思想:双变量模型 (2)
200 35 31 30 28 26 22 20
225 36 34 31 29 27 26 23
250 38 36 33 30 28 25 23
275 40 37 32 30 29 27 25
300 42 39 34 31 30 29 26
325 43 35 31 30 29 33 32
350 375 45 39 33 30 27 30 28 46 40 34 31 28 32 30
2019/2/21
R 2 0.99
2
回归分析可以用来:
1、找到被解释变量(Y)与解释变 量(X)运动的相互关系,并检验 某些假设 如:固定其它条件不变,施肥 量每增加一单位, 收成变化多 少?是增收还是减产? 2、在已知解释变量(X)的基础上, 估计或预测被解释变量(Y)的均 值 如:估计身高170的父亲,其 儿子的平均身高 3、综合分析、指导决策
随机干扰项的性质和意义 Yi B1 B2 X i ui
它是从模型中省略下来,但又集体地影
响着Y的全部变量的替代物。
博 彩 支 出
系统成分/定性:可支配收入(X) 其它变量的影响 如性格、年龄、 性别
B1+B2 X i
非系统/随机成分:
ui
另外一些说不清的随机事件: 如某几天心情好,多买点
slope
Regression coefficients
12
2019/2/21
度量了X每变动一单位,Y(条件) 均值的变化率
2、总体回归函数(PRF)
(Population Regression Function)
条件回归分析
E(Y Xi )=B1+B2 X i
E( Y )
B1
计量经济学ch2 双变量回归分析
Ch2 双变量回归分析: 基本概念总体:研究对象的全体,总体的基本单位称为个体。
同一对象的度量数据集合,也成为总体。
样本:总体中若干个体的集合。
2.1. 例子假定某个国家的人口总体由60户组成,所要研究的问题是,家庭消费支出与家庭可支配收入的关系。
假定将收入不等的家庭分为10组。
表2.1 用X 表示收入,Y 表示消费X80 100 120 140 160 180 200 220 240 260Y 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 - 88 - 113 125 140 - 160 189 185-- - 115 - - -162-191iY ∑E(Y︱X)325 65462 77445 89707 101678 113750 125685 1371043 149966 1611211137条件概率与条件期望。
p(Y=60/X=80)=1/5p(Y=65/X=80)=1/5,p(Y=70/X=80)=1/5 p(Y=75/X=80)=1/5进而根据条件概率,我们可计算条件期望(均值),即1()55(1/5)60(1/5)65(1/5)70(1/5)75(1/5)65E Y X X ==++++=图2.1 总体回归直线对应X 的不同水平,Y 的条件期望(均值)的变化,由于Y 的条件均值是对于给定X 的值而对于相应的所有Y 的值求条件均值,因此称为总体回归直线(PRL )。
2.2. PRL 函数Y 的条件均值为函数,因此将Y 的条件均值表述为i X )()(i i X f X Y E = (2.1)称(2.1)为双变量总体回归函数。
第二章双变量回归分析基本概念
第七节 样本回归函数(SRF)
对应(2.3.2)的SRF
Yˆi ˆ1 ˆ2 Xi 其中 Yˆ读为Y-帽,是 E(Y 的Xi估) 计量。
• 注意,一个估计量(estimator),又称(样本)统计量 (statistic),是指一个规则或公式或方法。在一项应用中, 由估计量算出的一个具体的数值,称为估计值 (estimate) 。
1-12
第七节 样本回归函数(SRF)
总体是观测不到的,大多数情况下,对应于一个 解释变量X,只能观测到被解释变量Y的一个值。
• 我们只能得到对应于某些固定X 值的Y 值的一个(有限 个)样本。
1-13
第七节 样本回归函数(SRF)
样本回归函数(sample regression function, SRF)
(2.3.1)
PRF的形式是一个经验问题,线性方程是常
用的形式:
E(Y Xi ) f ( Xi ) 1 2 Xi (2.3.2)
• 其中 1 和 2为未知但却固定的参数,称为回归系 数( regression coefficient)。1 和 2 分别称为截距
和斜率系数。方程(2.3.2)本身则称为线性总体回归 函数或简称线性总体回归。
Yi 1 2 X i ui
(2.5.2)
(2.5.2)为PFR的随机设定形式,与(2.3.2)等价。
1-11
第六节 随机扰动项的意义
为什么要引入随机扰动项?
• 理论的含糊性 • 数据的缺失 • 变量的解释力(核心变量与周边变量) • 人类行为的内在随机性 • 糟糕的替代变量(永久消费与当前消费等) • 节省原则 • 错误的函数形式
• 父母身高、子女身高 • 儿女的身高趋向人口总体平均,普遍回归定律(law of
chapter02经典线性回归模型:双变量线性回归模型
每 月 家 庭 消 费 支 出 Y
1489 1538
1600 1702
1712 1778
1841 1886
2078 2179
2298 2316
2289 2313
2398 2423
2487 2513
2538 2567
2853 2934
3110
3142 3274
1900
2012
2387
2498 2589
例:100个家庭构成的总体
(单位:元)
每 月 家 庭 可 支 配 收 入 X
1000 820 888 932 960 1500 962 1024 1121 1210 1259 1324 2000 1108 1201 1264 1310 1340 1400 1448 2500 1329 1365 1410 1432 1520 1615 1650 3000 1632 1726 1786 1835 1885 1943 2037 3500 1842 1874 1906 1068 2066 2185 2210 4000 2037 2110 2225 2319 2321 2365 2398 4500 2275 2388 2426 2488 2587 2650 2789 5000 2464 2589 2790 2856 2900 3021 3064 5500 2824 3038 3150 3201 3288 3399
E(Y X i ) = f ( X i )
这个函数称为总体回归函数(PRF)
例:100个家庭构成的总体
(单位:元)
每 月 家 庭 可 支 配 收 入 X
1000 820 888 932 960 1500 962 1024 1121 1210 1259 1324 2000 1108 1201 1264 1310 1340 1400 1448 2500 1329 1365 1410 1432 1520 1615 1650 3000 1632 1726 1786 1835 1885 1943 2037 3500 1842 1874 1906 1068 2066 2185 2210 4000 2037 2110 2225 2319 2321 2365 2398 4500 2275 2388 2426 2488 2587 2650 2789 5000 2464 2589 2790 2856 2900 3021 3064 5500 2824 3038 3150 3201 3288 3399
第二章 双变量回归分析:
ˆ ˆ ˆ Yi 1 2 Xi ui
2.6 样本回归函数
• 在大部分情况下,我们很难获得总体的数据,而 是通过对总体的抽样来探索总体的性质。 • 类比于总体回归函数(总体Y条件均值与X的关 系),可以定义样本回归函数:抽样Y与X之间的 关系。如:
ˆ ˆ ˆ Yi 1 2 X i
ˆ ˆ ˆ • 其中 Yi 是总体均值的估计量,1 和 2 分别是 1 和 2 的估计量 • 随机形式的样本回归函数为:
• 2、对参数为线性
2.4 PRF的随机设定
• 因为Y是随机的,每个具体的Y不可能恰好 等于其均值,他们之间的离差被设定为一 个随机扰动项:
ui Yi E(Y | X i )
• E(Y | X i ) 被称为 Yi 的系统性或确定性成分 • u i 被称为随机或非系统性成分 • 在给定X的条件下,随机扰动项的均值等于 0 E(u | X ) 0
i i
2.5随机扰动项的意义
• 随机扰动项代表了没有纳入模型,但是又对Y 产生影响的全部变量的替代。之所以这些变量 没有被纳入模型是因为: • 1、理论的模糊性 • 2、数据的可得性 • 3、核心变量与周边变量 • 4、人类行为的内在随机性 • 5、糟糕的替代变量 • 6、节省原则 • 7、错误的函数形式
第二章 双变量回归分析: 基本概念
2.1 引例
• 回归分析的本质是给定解释变量X的值去估计或预测因变量Y的均值。这就意 味着因变量是个随机变量,在给定一个X,Y可能有很多个值,回归分析是找 出他们的均值与X之间的关系。这个均值被称为条件均值。(例)
:条件均值的连线被称为总体回归线
250 E(y |X)= 0.6x + 17 200 150 10050
第二章双变量线性回归分析
[计量经济学] 第二章:双变量线性回归分析§1 经典正态线性回归模型(CNLRM)一、一些基本概念1、一个例子条件分布:以X取定值为条件的Y的条件分布条件概率:给定X的Y的概率,记为P(Y|X)。
例如,P(Y=55|X=80)=1/5;P(Y=150|X=260)=1/7。
条件期望(conditional Expectation):给定X的Y的期望值,记为E(Y|X)。
例如,E(Y|X=80)=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65总体回归曲线(Popular Regression Curve)(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。
2、总体回归函数(PRF)E(Y|X i)=f(X i)当PRF的函数形式为线性函数,则有,E(Y|X i)=β1+β2X i其中β1和β2为未知而固定的参数,称为回归系数。
β1和β2也分别称为截距和斜率系数。
上述方程也称为线性总体回归函数。
3、PRF的随机设定将个别的Y I围绕其期望值的离差(Deviation)表述如下:u i=Y i-E(Y|X i)或Y i=E(Y|X i)+u i其中u i是一个不可观测的可正可负的随机变量,称为随机扰动项或随机误差项。
4、“线性”的含义“线性”可作两种解释:对变量为线性,对参数为线性。
本课“线性”回归一词总是指对参数β为线性的一种回归(即参数只以它的1次方出现)。
模型对参数为线性?模型对变量为线性?是不是是LRM LRM不是NLRM NLRM注:LRM=线性回归模型;NLRM=非线性回归模型。
5、随机干扰项的意义随机扰动项是从模型中省略下来的而又集体地影响着Y 的全部变量的替代物。
显然的问题是:为什么不把这些变量明显地引进到模型中来?换句话说,为什么不构造一个含有尽可能多个变量的复回归模型呢?理由是多方面的: (1)理论的含糊性 (2)数据的欠缺(3)核心变量与周边变量 (4)内在随机性 (5)替代变量 (6)省略原则(7)错误的函数形式6、样本回归函数(SRF ) (1)样本回归函数iY ˆ=1ˆβ+2ˆβi X 其中Y ˆ=E(Y|X i )的估计量;1ˆβ=1β的估计量;2ˆβ=2β的估计量。
第2章双变量回归分析:一些基本概念
在我们的课程中,回归,回归方程和回归模型将 不加以区分,作为同义词使用 “线性”一词的含义 ( 2.2.2 )式被称为“线性”总体回归,其中的 “线性”的含义是什么? 它可以作两种解释: (1)对变量为线性 即:Y的条件期望值是 X i 的线性函数,从几何意 义上看,这样的回归曲线是一条直线。 诸如: E(Y | X i ) 1 2 X i 2 这样的回归函数,就不是线性的。
80 100 120
80
118 120 145 135 145 175
140
160 180 200 220 240 260
那么,我们能否从上表的样本数据预测整个总体 中对应于选定X的平均的消费支出Y呢?或者说,能 否估计出PRF?
根据表2.4和表2.5可以得到如下的散点图。
SRF1是根据第一个样本画的;而SRF2是根据第 二个样本画的。图中的回归线叫样本回归线 (sample regression lines)
第2章 双变量回归分析: 一些基本概念
回归分析是要根据解释变量的已知或给定值, 去估计或预测因变量的总体均值 假如我们要研究每周家庭消费支出Y与每周 可支配的家庭收入X之间的关系
假设这个国家的家体的总体由60户家庭组成。 可以按收入的高低把这60户家庭分组,每一组的 组内收入相差不大。假定我们得到的观察值如表 2.1所示
175
70
80
ቤተ መጻሕፍቲ ባይዱ94
103
116
130
144
152
165
178
75
85
98
108
118
135
145
157
175
180
—
88
—
113
第二章回归分析中的几个基本概念
第二章回归分析中的几个基本概念1. 回归模型(Regression Model):回归模型是回归分析的基础,用来描述两个或多个变量之间的关系。
回归模型通常包括一个或多个自变量和一个或多个因变量。
常用的回归模型有线性回归模型和非线性回归模型。
线性回归模型是最简单的回归模型,其中自变量和因变量之间的关系可以用一条直线来表示。
线性回归模型的表达式为:Y=β0+β1*X1+β2*X2+...+βn*Xn+ε其中,Y表示因变量,X1、X2、…、Xn表示自变量,β0、β1、β2、…、βn表示回归系数,ε表示误差项。
2. 回归系数(Regression Coefficients):回归系数是回归模型中自变量的系数,用来描述自变量对因变量的影响程度。
回归系数可以通过最小二乘法估计得到,最小二乘法试图找到一组系数,使得模型的预测值和实际观测值的误差平方和最小。
回归系数的符号表示了自变量与因变量之间的方向关系。
如果回归系数为正,表示自变量的增加会使因变量增加,即存在正向关系;如果回归系数为负,表示自变量的增加会使因变量减少,即存在负向关系。
3. 拟合优度(Goodness-of-fit):拟合优度是用来评估回归模型对样本数据的拟合程度。
通常使用R方(R-squared)来度量拟合优度。
R 方的取值范围在0到1之间,越接近1表示模型对数据的拟合程度越好。
R方的解释是,回归模型中自变量的变异能够解释因变量的变异的比例。
例如,如果R方为0.8,表示模型中自变量解释了因变量80%的变异,剩下的20%可能由其他未考虑的因素引起。
4. 显著性检验(Significance Test):显著性检验用于判断回归模型中自变量的系数是否显著不为零,即自变量是否对因变量有显著影响。
常用的方法是计算t值和p值进行检验。
t值是回归系数除以其标准误得到的统计量。
p值是t值对应的双侧检验的概率。
如果p值小于给定的显著性水平(通常是0.05),则可以拒绝原假设,即认为回归系数显著不为零,即自变量对因变量有显著影响。
双变量回归模型基本概念PPT课件
第33页/共39页
34
该样本的散点图(scatter diagram):
每月消费支出Y(元)
3500 3000 2500 2000 1500 1000
500 0 0
1000 2000 3000 4000 5000 6000 每月可支配收入X(元)
系列1
样本散点图近似于一条直线,画一条直线以尽好地拟合该 散点图。由于样本取自总体,可以认为该线近似地代表总 体回归线,该线称为样本回归线(SRF)。
2)变量观测值的观测误差的影响;
3)模型关系的设定误差的影响;
4)其它随机因素的影响。
产生并设计随机误差项的主要原因:
1)理论的模糊性;
2)数据的欠缺;
3)核心变量和周边变量;
4)人类行为的内在随机性;
5)糟糕的替代变量; 第28页/共39页
28
样本回归函数
总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。 问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?
(2)对回归方程、参数估计值进行显著性检验;
5
第5页/共39页
几个例子
• 1. Reconsider Galton’s law of universal regression.
• In the modern view our concern is finding out
how the average height of sons changes given
• 函数形式:
可以是线性或非线性的。 引例中,将消费支出看成是其可支配收入的线性函数时:
21
第21页/共39页
“线性”的两种含义
第2章 线性回归的基本思想:双变量模型
Yi = B1 + B2 Xi + ui
确定性成 分 随机性 成分
Yi = E(Y | Xi ) + ui
有其它的对博彩支出影响的因素。 有其它的对博彩支出影响的因素。 表示随机误差项, u i 表示随机误差项,它代表除了收入以外所
3.4 随机误差项的性质
b1
b2
OLS估计量的数值性质 2.8.2 OLS估计量的数值性质
所谓数值性质是指由于运用OLS方法才得以成立的 所谓数值性质是指由于运用OLS方法才得以成立的 数值性质是指由于运用OLS 那些性质,而不管数据是如何产生的。 那些性质,而不管数据是如何产生的。
1样本回归直线经过样本均值点
( X ,Y )
1 解释变量为线性 解释变量X以一次方的形式出现在方程中, 解释变量X以一次方的形式出现在方程中, 解释变量X不与其它变量相乘或相除。 解释变量X不与其它变量相乘或相除。
Yi = B1 + B2 Xi
2 参数线性 参数以一次方的形式出现在模型中。 参数以一次方的形式出现在模型中。
E (Y | X i ) = B1 + B2 X i
X1, X 2 , X 3 L
施肥量与小麦产量
1 回归分析与确定性分析 函数关系研究的是变量之间的确定性关系。
销售收入=价格*销售量 销售收入=价格*
回归分析研究的是变量之间的依赖关系或者统 回归分析研究的是变量之间的依赖关系或者统 依赖关系或者 计关系。 关系。
某商品的需求量与消费者的收入
2
回归分析与因果关系
Yi = b1 + b2 X i + ei
注意区分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ui Yi E(Y | X i ) 或
Yi E(Y | X i ) ui (2.4.1)
离差ui 是一个不可观测的随机变量,称之为随机干扰 (stochastic disturbance)或随机误差项(stochastic error)
从计量经济学上看,对于给定的X水平,个别家庭的支出 可以分解为两个部分: ①表示收入相同的所有家庭的平均消费支出,称为系 统 性 ( systematic ) 或 确 定 性 ( deterministic ) 成 分 (component)。 ②ui为随机的或非系统性成分(nonsystematic component)。它是代表所有可能影响Y的,但又没有包 括到回归模型中的替代(surrogate)或代理(proxy)变 量 假定 E(Y | X i ) 对X i 是线性的,(2.4.1)式便可以写 为: Yi 1 2 X i ui (2.4.2) 它表示消费支出Y线性地依赖于相应的收入X i 和随机 扰动项
表2.4 表2.1总体的一个随机样本
Y
70 65 90 95 110 115 120
X
80 100 120 140 160 180 200
140
155 150
220
240 260
各次抽样之间总存在波动(误差),表2.5是另 一个随机样本 表2.5 表2.1总体的另一个随机样本
Y
55 88 90
X
图2.1可以画成图2.2的形式 可见,对应于每一个Xi都有一个Y值的总体和 一个相应的条件均值。而回归直线(曲线)正好 穿过这些条件均值
总体回归函数(PRF,population regression function) 由图2.1和图2.2可见,每一个条件均值都是 X i 的一个函 数,即:
的经济理论可以给我们一些指导。假如, E(Y | X i ) 是 X i 的线性函数:
E(Y | X i ) 1 2 X i
(2.2.2)
1 和 2 为 回 归 系 数 ( regression coefficients ) , (2.2.2)称为线性总体回归函数,或简称线性总体回归。
E(ui | X i ) 0
(2.4.5)
这就是说,给定Xi,ui的条件均值等于零。
随机干扰项的意义 干扰项是模型中省略掉的,又集体地影响Y的全部因 素(变量)的替代物(surrogate) 那么,为什么不构造一个含有尽可能多的解释变量 的复回归模型呢?原因如下: 理论的含糊性:现有的理论往往是不完全的。物理 学上有个“测不准定理”:我们永远不可能接近真实 的世界,因为我们的观测总是要借助于工具和环境 数据的欠缺:比如,在分析影响家庭消费支出的例 子中,应该加进“财富”变量,然而,人们总是怕“ 露富”,有些人 “装富”,所以,一般很难得到有关 家庭财富的确切数据
对于给定的 X i ( X X i ) ,有一个观测值 Y Yi 利用SRF可以将所观测到的 Yi 表示为:
ˆ ˆ Yi Yi u
(2.6.3)
利用PRF可以将所观测到的 Yi 表示为:
Yi E(Y | X i ) ui
(2.6.4)
Xi ,SRF低估了PRF。这种高估或低估是由抽样误差引 起的。 用什么方法或规则,可以使SRF可以尽可能地接 ˆ 近PRF?或者说,怎样构造SRF使 1 尽可能接近 1 , ˆ 尽可能接近 呢?且听下章分解
回归分析的主要任务是根据SRF:
ˆ ˆ ˆ Yi 1 2 X i ui
(2.6.2)
估计PRF:
Yi 1 2 X i ui
由于抽样有波动,根据SRF来估计PRF,最多只能 是一个近似的估算。见下图:
ˆ ˆ ˆ SRF : Yi 1 2 Xi
PRF : E(Y | X i ) 1 2 X i
(2)对参数为线性
即Y的条件期望 E(Y | X i ) 是参数 i 的一个线性函数; 它既可以是也可以不是变量X的线性函数
这样以来,
E(Y | X i ) 1 2 X i
2
就是一个线性回归模型, 而
E(Y | X i ) 1 2 X i
则不是线性的。
在今后的课程中,我们讲的“线性”指的是对参数为 线性的情况,对解释变量i 则可以是也可以不是线性的。 X
对 应 于 样 本 回 归 线 的 方 程 叫 样 本 回 归 函 数 ( sample regression function,简记 SRF):
ˆ ˆ ˆ Yi 1 2 X i
ˆ 1 表示 1的估计量 ˆ 2 表示 2 的估计量
(2.6.1)
ˆ Y 表示 E(Y | X i ) 的估计量 (全在SRF上)
样本回归函数(SRF,The Sample Regression Function) 表2.1是一个总体,这是一个假定的总体,在现 实的经济生活中总体的所有观测值往往是不能够全部 获得的。 在大多数情况下,我们只有对应于某些固定的 X的Y值的一个样本。比如,对于表2.1的总体我们只知 道如下的抽取的样本:
估计量(estimator),也称样本的统计量(statistic)是 总体参数的一个估计。由估计量算出的一个具体的数值, 称之为估计值(estimate)
SRF(2.6.1)式可以写成相应的随机形式: ˆ ˆ ˆ Yi 1 2 X i ui
ˆ ˆ u i 表示样本残差或剩余项(residual), u i 是 u i 的估 计量。
一个例子
表2.1 x y
80 100
X:每周家庭收入($)
120 140 160 180 200 220 240 260
55
65
79
80
102
110
120
135
137
150
每 周 家 庭 消 费 支 出
60
70
84
93
107
115
136
137
145
152
65
74
90
95
110
120
140
140
155
80 100 120
80
118 120 145 135 145 175
140
160 180 200 220 240 260
那么,我们能否从上表的样本数据预测整个总体 中对应于选定X的平均的消费支出Y呢?或者说,能 否估计出PRF?
根据表2.4和表2.5可以得到如下的散点图。
SRF1是根据第一个样本画的;而SRF2是根据第 二个样本画的。图中的回归线叫样本回归线 (sample regression lines)
Yi 1 2 X i ui 由(2.4.1)式: 两边取期望值 得: E (Yi | X i ) E[ E (Y | X i )] E (u i | X i )
常数的期望是它本身 E (Y | X i ) E (u i | X i )
而
E(Yi | X i ) 也就是 E(Y | X i ) ,所以有:
175
70
80
94
103
116
130
144
152
165
178
75
85
98
108
118
135
145
157
175
180
—
88
—
113
125
140
—
160
189
185
—
—
—
115
—
—
—
162
—
191
共计
325
46
445
707
678
750
685
1043
966
1211
表2.1的含义:它给出了以X的给定值为条件的Y值 的条件分布(conditional distribution) 因为表2.1代表一个总体,我们可以从表中计算出 给定X的Y的概率,这在统计上叫做什么? 比如:
错误的函数形式: 比如: Yi 1 2 X i ui
lnYi 1 2 ln X i ui
Yi 1 2 X i 3 X i ui
2
Yi 1 2 ln X i ui
到底是哪一种,可能我们并不是十分清楚,借助于 经济理论,散点图会有助于我们的分析
第2章 双变量回归分析: 一些基本概念
回归分析是要根据解释变量的已知或给定值, 去估计或预测因变量的总体均值 假如我们要研究每周家庭消费支出Y与每周 可支配的家庭收入X之间的关系
假设这个国家的家体的总体由60户家庭组成。 可以按收入的高低把这60户家庭分组,每一组的 组内收入相差不大。假定我们得到的观察值如表 2.1所示
比如,给定X=80
1 1 1 1 1 E (Y | X 80) 55 60 65 70 75 65 5 5 5 5 5
可以由表 2.1绘制如 右图的散点 图
返回
散点图表明对应于各个X值的Y的条件分布,它表 明随着收入的增加,消费支出平均地说也在增加。 Y的条件均值随X增加而增加。图中的粗圆点(大 的黑点)表示Y的各个条件均值 Y的条件均值落在一条正斜率的直线上,这条线叫 总体回归线(population regression line or curve),它 代表Y对X的回归 从几何意义上讲,总体回归曲线就是,当解释变 量取给定值时,因变量的条件均值或条件期望的轨迹
糟糕的替代变量(poor proxy variables):举个例子 Milton Friedman(弗里德曼)的消费函数理论把 永久消费(YP)(permanent consumption)看作是永 久收入(XP)(permanent income)的函数 “永久消费”和“永久收入”是两个抽象的概念, 不可以观测,实际上,只能用可以观测到的当前消费 Y ( current consumption ) 和 当 前 收 入 X ( current income),或者n个时期的平均值去替代。这便有个 测量误差。∴干扰项ui也用来代表测量误差 节省原则: 做回归模型,在许可的范围内尽量节省——减少 变量的个数。这也有个“投入产出”的问题。当然, 不能为了简单而省去有关的和重要的变量