截面数据计量经济学导论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
截面数据计量分析导论
• • • • • 一、数据结构 二、截面基本模型 三、基本假定 四、检验 五、放宽基本假定
1
一、横截面数据结构
• 横截面数据是指在某一特定时点上所收集的有关研究 对象的信息。 • 横截面数据集(cross-sectional data set):即给定时点对 个人、家庭、企业、城市、国家或一系列其他单位采 集的样本所构成的数据集(应该忽略细小的时间差别) 1、横截面数据的特点 横截面数据的离散性比较高 2、应注意ห้องสมุดไป่ตู้问题 (1)异方差问题 (2)数据的一致性。 不同的变量要有一样多的样本; 取样的时期上要一致; 统计标准的一致
9
如果估计误差较小,即估计值与真实值比 较接近,则可以用样本回归方程近似地代替 总体回归方程,即利用样本回归方程近似地 描述总体的平均变化规律。 • 因此,回归分析的主要内容可以概括成: • 根据样本观察值确定样本回归方程; • 检验样本回归方程对总体回归方程的近似程 度; • 利用样本回归方程分析总体的平均变化规律
27
4、显著性检验方法
• 构造一个检验统计量,利用该统计量的 分布特征,来决定是否接受零假设。 • 通常一个大的t绝对值,便是与虚拟假设 相抵触的迹象 • 单尾检验
28
一些实际操作问题
• “接受”和“拒绝”假设的含义:正如一 个法庭宣告某一判决为“无罪” (not guilty)而不为“清白”(innocent) 统计检验的结论也应为“不拒绝”而不 为接受。 • 2-t屈指一算法则:如果自由度>=20且显 著水平定为0.05,则只要t统计量大于2, 就可拒绝“零”假设(单尾)
17
2、 回归拟合的评价
• Y的总变差是离差的平方和:
SST = ∑ ( yi − yi ) 2
• 方差分解: 总平方和=回归平方和+误差平方和 SST=SSR+SSE 2 • 决定系数 R =SSR/SST • 对单个估计系数的t检验
i
18
3、相关系数r
• 相关系数 r = R 2 • 相关系数是两个变量间的线性关联的一个 度量 • 相关系数落在[-1,1]间,如果两变量独立, 则它们之间的相关系数为零,反之不成立
13
(4)干扰项之间的无自相关意味着y i的决定与 其他期的 u i 值无关。 (5)干扰项与自变量之间的非相关,干扰项本 身是独立于自变量之外的,且如果干扰项与 自变量存在相关,则不能独自说明其作用。 (6)u i 随机的、独立的、同分布
u i ~ N (0, σ )
2
i .i .d
ui
IID (0, σ )
10
4、随机干扰项的意义:
(1)理论的含糊性(其他因素) (2)数据的欠缺 (3)核心变量与周边变量(或上或下的随机影 响) (4)人类行为的内在随机性 (5)糟糕的替代变量(永久消费和永久收入) (6)节省原则(多重共线性的影响) (7)错误的函数形式
11
5、线性回归模型的假定
• • • • • • (1)函数形式: yi = α + β xi + ui , i = 1,..., n E [u i ] = 0 (2)干扰项的零均值: Var[ui ] = σ 2 (3)同方差性: Cov[ui , u j ] = 0 (4)无自相关: Cov (5)回归量与干扰项的非相关: [ui , ui ] = 0 (6)正态性: ui N [0, σ 2 ]
ui
N ( 0, σ
2
)
,则 y 也服从
i
• 系数估计量也是服从正态分布的:
ˆ α ~ N (α , var(α ))
ˆ β ~ N (β , var (β ))
21
• 需要注意的是:如果残差不服从正态分布,即 假设(6)不成立,但只要其他假设条件还成立, 且样本容量足够大,则通常认为系数估计量还 是服从正态分布的。 其标准正态分布为:
7
(4)总体和样本关系
• 总体是我们研究的目的,但是不 能知道总体的全部数据 • 用总体中的一部分(样本)来推 断总体的性质。
总体
样本
样本
样本
BLUE-Best Linear Unbiasedness Estimator
8
总体回归直线与样本回归直线
300 270 240
总体回归函数
样本回归函数
210 180 150 120 160 180 200 220 240 260 280 300 320 340 360 380
26
3、置信区间的方法
• 检验方法:构造一个参数的 100(1 − α )% 的 置信区间。如果参数在假设 H 0 下落入此区 间,就不拒绝零假设。但如果它落在此区间 之外,则拒绝零假设。 • 第一类错误(拒真):原假设正确,却拒绝了 第二类错误(纳假):原假设不正确,却接受 • “统计上高度显著”指:当拒绝原假设时, 犯第一类错误的概率是一个很小的数,通常 小于1%
3、几个关系
(1)统计关系和确定性(函数)关系 计量经济学主要处理的是随机(random或 stochastic)的应变量,也就是有着概率分布的 变量,这是一种统计关系。也可以从有无随 机干扰项的角度来区分。 (2)回归与因果关系 从逻辑上来说,回归关系式本身并不意味着 任何因果关系,因果关系应该来自统计学之 外。 (3)回归与相关关系 变量是否是确定的;变量之间是否对称;相 关系数度量VS估计或预测应变量的平均值
29
5、一些实际操作问题
• 在进行调查研究之前建立假设而不是相 反,以免犯循环推理(circular reasoning) 的错误 • P值被定义为一个虚拟假设可被拒绝的 最低显著水平,或犯第一类错误的精确 概率。由于选择显著性水平的武断性, 直接选取p值并决定是否在给定的p值水 平上拒绝虚拟假设会较好
23
由于正态性假定而新增的性质
• (1)系数估计量也是服从正态分布的(根据系数估 计量是yi的线性函数,而yi又是干扰项的线性函数) • (2)Ols的系数估计量在整个无偏估计量中,无论 是线性的还是非线性的估计,都有最小方差,所以 说最小二乘估计量是最优无偏估计量 ˆ (n − 2)σ 2 / σ 2 遵循n-2个自由度的卡方分布 • (3) • (4)随着样本容量无限地增大,系数估计量将收敛 于它们的真值(一致性)
4
• 对于变量间的相关关系,我们可以根据大 量的统计资料,找出它们在数量变化方面 的规律(即“平均”的规律),这种统计 规律所揭示的关系就是回归关系 (regressive relationship),所表示的数学 方程就是回归方程(regression equation) 或回归模型(regression model)。
5
2、线性回归模型一般形式
Yi =β1 +β2X2,i +β3X3,i + L+βk Xk,i +ui
这是最常用的模型形式,可以用数理统计 中的线性回归方法进行估计(最小二乘法)。 只有一个解释变量时,称简单线性回归模 型,也叫双变量回归模型;当解释变量不止 一个时,称多元线性回归模型。“元”,指 解释变量,上模型称k-1元线性回归模型或者 6 K变量回归模型。
24
四、检验
1、区间估计与假设检验
• 估计与假设检验构成统计学的两个主要分支,估计理 论又主要由点估计与区间估计组成。 • 回顾一些概念: 置信区间、置信系数、显著性水平、置信限、置信下 限、置信上限 回归系数的置信区间 • 回归估计量的置信区间 • 置信区间的宽度与估计量的标准误成正比,即标准误 越大,对未知参数的真值进行估计的不确定性愈大
2
二、线性回归方法
• 1、“回归”一词的历史渊源 加尔顿-回归到中等(或平均) • 回归分析是关于研究一个叫做应变量的 变量对另一个或多个叫做自变量的变量 的依赖关系,其用意在于通过后者的已 知或给定值,去估计和预测前者的(总 体)均值
3
• 经济变量之间的关系,大体上可以分为 两种: (1)函数关系:Y=f(X1,X2,….,XP), 其中Y的值是由Xi(i=1,2….p)所唯一确 定的。 (2)相关关系: Y=f(X1,X2,….,XP) , 这里Y的值不能由Xi(i=1,2….p)精确的 唯一确定。
25
2、假设检验
• 什么是假设检验:问某一给定的观测是否与 某声称的假设相符,这个声称的假设叫做虚 拟假设(null hypothesis),即 H 0 ,与之相对 H1 的为对立假设(maintained hypothesis),即 • 假设检验就是要设计一个程序用来决定拒绝 或不拒绝虚拟假设,通常采用两种互为补充 的方法:置信区间和显著性检验
2
以上假设也称为线性回归模型的经典假设 经典假设 或高斯(Gauss)假设 高斯( 高斯 )假设,满足该假设的线性 回归模型,也称为经典线性回归模型 经典线性回归模型 (Classical Linear Regression Model, CLRM)。
14
三、普通最小二乘法
• 总体回归函数(PRF)与样本回归函数 (SRF)之差的平方和最小为最小二乘法 的准则。
ˆ α-α ~N(0,1) var(α )
ˆ β −β ~ N (0,1) var(β )
22
为何是正态分布而不是其他?
• 原因1:中心极限定理证明,如果存在大量独 立且相同分布的随机变量,那么,除了少数 例外情形,随着这些变量的个数无限的增大, 它们的总和将趋向于正态分布 • 原因2:中心极限定理的另一解说是,即使变 量个数并不是很大或这些变量还不是严格独 立的,它们的总和仍可视为正态分布 • 检验数据是否为正态分布:Kolmogorov D检 验,零假设为数据是均值和方差未知的正态 分布
30
6、一些实际操作问题
• 区分统计上的显著性和经济上的显著性。 当样本非常大时,几乎任何虚拟假设都 一定会被拒绝,点估计的大小成为唯一 可研究的问题 • 两种检验方法的选择,置信区间法优于 显著性检验法(点与面之分)
31
7、回归分析与方差分析
• 对SST=SSR+SSE进行研究就叫做从回归的 观点做方差分析(analysis of variance ANOVA) • F检验: SSR / df ssr F= SSE / df sse F检验主要用在多元回归问题中,对全部系 数为0做检验,其对立假设为非全部系数同 时为0
15
1、估计参数的特性
(1)最小二乘估计量的线性和无偏性质 (2)所谓线性即估计量是yi 的一个线性函数 (3)所谓无偏即系数估计量的期望等于系数 原值 (4)干扰项方差的一个无偏估计量 β1 β2
16
2、OLS经典假设
• • • • • • • • • • • • 假定分类:对模型、干扰项 假定分类:对模型、干扰项ui和数据的假定 分类 1、回归模型对参数而言是线性的; 、回归模型对参数而言是线性的; 2、各自变量 的值在重复抽样中是固定的; 的值在重复抽样中是固定的; 、各自变量X的值在重复抽样中是固定的 3、对给定的 ,随机干扰项 i的均值为零; 、对给定的X,随机干扰项u 的均值为零; 4、对给定的 ,随机干扰项 i的方差不变; 、对给定的X,随机干扰项u 的方差不变; 5、对给定的 ,随机干扰项 i无自相关; 、对给定的X,随机干扰项u 无自相关; 6、随机干扰项 i是正态分布的。 、随机干扰项u 是正态分布的。 7、观测次数必定大于自变量的个数; 、观测次数必定大于自变量的个数; 8、自变量的取值必须有足够的变异性; 、自变量的取值必须有足够的变异性; 9、干扰项 i与各 是独立的或不相关; 是独立的或不相关; 、干扰项u 与各X是独立的或不相关 10、自变量之间无准确的线性关系; 、自变量之间无准确的线性关系; 11、回归模型是正确设定的; 、回归模型是正确设定的;
12
含义
(1)函数不含非线性项,为线性模型。 (2)干扰项的零均值的意思是凡是模型不显 著含有的并因而归属u i 的因素,对yi的均值 都没有系统的影响;正的ui 值抵销了负的 值,以至于他们对yi 的平均值的影响为零。 u (3) i 的同方差性同时也意味着y 的同方差 性,即随着 xi 的变动,y i 的取值的分布是一 定的,是分布不变的。
19
4、 OLS估计量的概率分布 ——正态性假定
• 不仅要用ols法做点估计,还要进行假设 检验(hypothesis testing),即对系数的真 值做出推断,而这需要干扰项的概率分 布。 • 从干扰项的概率分布------估计量的概率 分布----------系数真值的统计推断
20
• 给定假设条件(6),即 正态分布
• • • • • 一、数据结构 二、截面基本模型 三、基本假定 四、检验 五、放宽基本假定
1
一、横截面数据结构
• 横截面数据是指在某一特定时点上所收集的有关研究 对象的信息。 • 横截面数据集(cross-sectional data set):即给定时点对 个人、家庭、企业、城市、国家或一系列其他单位采 集的样本所构成的数据集(应该忽略细小的时间差别) 1、横截面数据的特点 横截面数据的离散性比较高 2、应注意ห้องสมุดไป่ตู้问题 (1)异方差问题 (2)数据的一致性。 不同的变量要有一样多的样本; 取样的时期上要一致; 统计标准的一致
9
如果估计误差较小,即估计值与真实值比 较接近,则可以用样本回归方程近似地代替 总体回归方程,即利用样本回归方程近似地 描述总体的平均变化规律。 • 因此,回归分析的主要内容可以概括成: • 根据样本观察值确定样本回归方程; • 检验样本回归方程对总体回归方程的近似程 度; • 利用样本回归方程分析总体的平均变化规律
27
4、显著性检验方法
• 构造一个检验统计量,利用该统计量的 分布特征,来决定是否接受零假设。 • 通常一个大的t绝对值,便是与虚拟假设 相抵触的迹象 • 单尾检验
28
一些实际操作问题
• “接受”和“拒绝”假设的含义:正如一 个法庭宣告某一判决为“无罪” (not guilty)而不为“清白”(innocent) 统计检验的结论也应为“不拒绝”而不 为接受。 • 2-t屈指一算法则:如果自由度>=20且显 著水平定为0.05,则只要t统计量大于2, 就可拒绝“零”假设(单尾)
17
2、 回归拟合的评价
• Y的总变差是离差的平方和:
SST = ∑ ( yi − yi ) 2
• 方差分解: 总平方和=回归平方和+误差平方和 SST=SSR+SSE 2 • 决定系数 R =SSR/SST • 对单个估计系数的t检验
i
18
3、相关系数r
• 相关系数 r = R 2 • 相关系数是两个变量间的线性关联的一个 度量 • 相关系数落在[-1,1]间,如果两变量独立, 则它们之间的相关系数为零,反之不成立
13
(4)干扰项之间的无自相关意味着y i的决定与 其他期的 u i 值无关。 (5)干扰项与自变量之间的非相关,干扰项本 身是独立于自变量之外的,且如果干扰项与 自变量存在相关,则不能独自说明其作用。 (6)u i 随机的、独立的、同分布
u i ~ N (0, σ )
2
i .i .d
ui
IID (0, σ )
10
4、随机干扰项的意义:
(1)理论的含糊性(其他因素) (2)数据的欠缺 (3)核心变量与周边变量(或上或下的随机影 响) (4)人类行为的内在随机性 (5)糟糕的替代变量(永久消费和永久收入) (6)节省原则(多重共线性的影响) (7)错误的函数形式
11
5、线性回归模型的假定
• • • • • • (1)函数形式: yi = α + β xi + ui , i = 1,..., n E [u i ] = 0 (2)干扰项的零均值: Var[ui ] = σ 2 (3)同方差性: Cov[ui , u j ] = 0 (4)无自相关: Cov (5)回归量与干扰项的非相关: [ui , ui ] = 0 (6)正态性: ui N [0, σ 2 ]
ui
N ( 0, σ
2
)
,则 y 也服从
i
• 系数估计量也是服从正态分布的:
ˆ α ~ N (α , var(α ))
ˆ β ~ N (β , var (β ))
21
• 需要注意的是:如果残差不服从正态分布,即 假设(6)不成立,但只要其他假设条件还成立, 且样本容量足够大,则通常认为系数估计量还 是服从正态分布的。 其标准正态分布为:
7
(4)总体和样本关系
• 总体是我们研究的目的,但是不 能知道总体的全部数据 • 用总体中的一部分(样本)来推 断总体的性质。
总体
样本
样本
样本
BLUE-Best Linear Unbiasedness Estimator
8
总体回归直线与样本回归直线
300 270 240
总体回归函数
样本回归函数
210 180 150 120 160 180 200 220 240 260 280 300 320 340 360 380
26
3、置信区间的方法
• 检验方法:构造一个参数的 100(1 − α )% 的 置信区间。如果参数在假设 H 0 下落入此区 间,就不拒绝零假设。但如果它落在此区间 之外,则拒绝零假设。 • 第一类错误(拒真):原假设正确,却拒绝了 第二类错误(纳假):原假设不正确,却接受 • “统计上高度显著”指:当拒绝原假设时, 犯第一类错误的概率是一个很小的数,通常 小于1%
3、几个关系
(1)统计关系和确定性(函数)关系 计量经济学主要处理的是随机(random或 stochastic)的应变量,也就是有着概率分布的 变量,这是一种统计关系。也可以从有无随 机干扰项的角度来区分。 (2)回归与因果关系 从逻辑上来说,回归关系式本身并不意味着 任何因果关系,因果关系应该来自统计学之 外。 (3)回归与相关关系 变量是否是确定的;变量之间是否对称;相 关系数度量VS估计或预测应变量的平均值
29
5、一些实际操作问题
• 在进行调查研究之前建立假设而不是相 反,以免犯循环推理(circular reasoning) 的错误 • P值被定义为一个虚拟假设可被拒绝的 最低显著水平,或犯第一类错误的精确 概率。由于选择显著性水平的武断性, 直接选取p值并决定是否在给定的p值水 平上拒绝虚拟假设会较好
23
由于正态性假定而新增的性质
• (1)系数估计量也是服从正态分布的(根据系数估 计量是yi的线性函数,而yi又是干扰项的线性函数) • (2)Ols的系数估计量在整个无偏估计量中,无论 是线性的还是非线性的估计,都有最小方差,所以 说最小二乘估计量是最优无偏估计量 ˆ (n − 2)σ 2 / σ 2 遵循n-2个自由度的卡方分布 • (3) • (4)随着样本容量无限地增大,系数估计量将收敛 于它们的真值(一致性)
4
• 对于变量间的相关关系,我们可以根据大 量的统计资料,找出它们在数量变化方面 的规律(即“平均”的规律),这种统计 规律所揭示的关系就是回归关系 (regressive relationship),所表示的数学 方程就是回归方程(regression equation) 或回归模型(regression model)。
5
2、线性回归模型一般形式
Yi =β1 +β2X2,i +β3X3,i + L+βk Xk,i +ui
这是最常用的模型形式,可以用数理统计 中的线性回归方法进行估计(最小二乘法)。 只有一个解释变量时,称简单线性回归模 型,也叫双变量回归模型;当解释变量不止 一个时,称多元线性回归模型。“元”,指 解释变量,上模型称k-1元线性回归模型或者 6 K变量回归模型。
24
四、检验
1、区间估计与假设检验
• 估计与假设检验构成统计学的两个主要分支,估计理 论又主要由点估计与区间估计组成。 • 回顾一些概念: 置信区间、置信系数、显著性水平、置信限、置信下 限、置信上限 回归系数的置信区间 • 回归估计量的置信区间 • 置信区间的宽度与估计量的标准误成正比,即标准误 越大,对未知参数的真值进行估计的不确定性愈大
2
二、线性回归方法
• 1、“回归”一词的历史渊源 加尔顿-回归到中等(或平均) • 回归分析是关于研究一个叫做应变量的 变量对另一个或多个叫做自变量的变量 的依赖关系,其用意在于通过后者的已 知或给定值,去估计和预测前者的(总 体)均值
3
• 经济变量之间的关系,大体上可以分为 两种: (1)函数关系:Y=f(X1,X2,….,XP), 其中Y的值是由Xi(i=1,2….p)所唯一确 定的。 (2)相关关系: Y=f(X1,X2,….,XP) , 这里Y的值不能由Xi(i=1,2….p)精确的 唯一确定。
25
2、假设检验
• 什么是假设检验:问某一给定的观测是否与 某声称的假设相符,这个声称的假设叫做虚 拟假设(null hypothesis),即 H 0 ,与之相对 H1 的为对立假设(maintained hypothesis),即 • 假设检验就是要设计一个程序用来决定拒绝 或不拒绝虚拟假设,通常采用两种互为补充 的方法:置信区间和显著性检验
2
以上假设也称为线性回归模型的经典假设 经典假设 或高斯(Gauss)假设 高斯( 高斯 )假设,满足该假设的线性 回归模型,也称为经典线性回归模型 经典线性回归模型 (Classical Linear Regression Model, CLRM)。
14
三、普通最小二乘法
• 总体回归函数(PRF)与样本回归函数 (SRF)之差的平方和最小为最小二乘法 的准则。
ˆ α-α ~N(0,1) var(α )
ˆ β −β ~ N (0,1) var(β )
22
为何是正态分布而不是其他?
• 原因1:中心极限定理证明,如果存在大量独 立且相同分布的随机变量,那么,除了少数 例外情形,随着这些变量的个数无限的增大, 它们的总和将趋向于正态分布 • 原因2:中心极限定理的另一解说是,即使变 量个数并不是很大或这些变量还不是严格独 立的,它们的总和仍可视为正态分布 • 检验数据是否为正态分布:Kolmogorov D检 验,零假设为数据是均值和方差未知的正态 分布
30
6、一些实际操作问题
• 区分统计上的显著性和经济上的显著性。 当样本非常大时,几乎任何虚拟假设都 一定会被拒绝,点估计的大小成为唯一 可研究的问题 • 两种检验方法的选择,置信区间法优于 显著性检验法(点与面之分)
31
7、回归分析与方差分析
• 对SST=SSR+SSE进行研究就叫做从回归的 观点做方差分析(analysis of variance ANOVA) • F检验: SSR / df ssr F= SSE / df sse F检验主要用在多元回归问题中,对全部系 数为0做检验,其对立假设为非全部系数同 时为0
15
1、估计参数的特性
(1)最小二乘估计量的线性和无偏性质 (2)所谓线性即估计量是yi 的一个线性函数 (3)所谓无偏即系数估计量的期望等于系数 原值 (4)干扰项方差的一个无偏估计量 β1 β2
16
2、OLS经典假设
• • • • • • • • • • • • 假定分类:对模型、干扰项 假定分类:对模型、干扰项ui和数据的假定 分类 1、回归模型对参数而言是线性的; 、回归模型对参数而言是线性的; 2、各自变量 的值在重复抽样中是固定的; 的值在重复抽样中是固定的; 、各自变量X的值在重复抽样中是固定的 3、对给定的 ,随机干扰项 i的均值为零; 、对给定的X,随机干扰项u 的均值为零; 4、对给定的 ,随机干扰项 i的方差不变; 、对给定的X,随机干扰项u 的方差不变; 5、对给定的 ,随机干扰项 i无自相关; 、对给定的X,随机干扰项u 无自相关; 6、随机干扰项 i是正态分布的。 、随机干扰项u 是正态分布的。 7、观测次数必定大于自变量的个数; 、观测次数必定大于自变量的个数; 8、自变量的取值必须有足够的变异性; 、自变量的取值必须有足够的变异性; 9、干扰项 i与各 是独立的或不相关; 是独立的或不相关; 、干扰项u 与各X是独立的或不相关 10、自变量之间无准确的线性关系; 、自变量之间无准确的线性关系; 11、回归模型是正确设定的; 、回归模型是正确设定的;
12
含义
(1)函数不含非线性项,为线性模型。 (2)干扰项的零均值的意思是凡是模型不显 著含有的并因而归属u i 的因素,对yi的均值 都没有系统的影响;正的ui 值抵销了负的 值,以至于他们对yi 的平均值的影响为零。 u (3) i 的同方差性同时也意味着y 的同方差 性,即随着 xi 的变动,y i 的取值的分布是一 定的,是分布不变的。
19
4、 OLS估计量的概率分布 ——正态性假定
• 不仅要用ols法做点估计,还要进行假设 检验(hypothesis testing),即对系数的真 值做出推断,而这需要干扰项的概率分 布。 • 从干扰项的概率分布------估计量的概率 分布----------系数真值的统计推断
20
• 给定假设条件(6),即 正态分布