统计学基础知识复习

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(explanatory variable)、 (explained variable)、 结果变量 (effect variable); 原因变量 (causal variable)
10
α、β为参数(parameters),或称回归系数 (regression coefficients); ut通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项, 在回归模型中它是不确定的,服从随机分布 (相应的,yt也是不确定的,服从随机分布)。
15
(二)一些基本概念 1.总体(the population)和样本(the sample) 总体是指待研究变量的所有数据集合,可以是 有限的,也可以是无限的;而样本是总体的一 个子集。
2、总体回归方程(the population regression function,简记PRF),样本回归方程(the sample regression function,简记SRF)。
即:
(2.2) (2.3)
y t = α + β xt + u t
其中t(=1,2,3,…..,T)表示观测数。 式(2.3)即为一个简单的双变量回归模型(因其仅 具有两个变量x, y)的基本形式。
9
其中yt被称作因变量
xt被称作自变量 解释变量
(dependent variable)、 (independent variable)、 被解释变量
∑ (x x ) ∑ u 是残差的估计标准差。 其中, s = T 2
2 t
2 t
()
1
=s
1 xt2 Tx 2 ∑
25
参数估计量的标准差具有如下的性质: (1)样本容量T越大,参数估计值的标准差越 小;
(2) (α )和SE (β ) 都取决于s2。 s2是残差的方差 SE
估计量。 s2越大,残差的分布就越分散,这样 模型的不确定性也就越大。如果s2很大,这意 味着估计直线不能很好地拟合散点;
2
35
Biblioteka Baidu
∑ ( yt y ) = ∑ ( yt y )
2
2
u t2 +∑
(2.36)
( y y )2是被模型所解释的部分,称为回归平方 ∑
和(the explained sum of squares,简记ESS); 是不能被模型所解释的残差平方和(RSS), 即 ut ∑
2
=
2 t
∑u
13
直线上的yt值,记为 yt ,称为拟合值(fitted value),实际值与拟合值的差,记为ut ,称 为残差(residual) ,可以看作是随机误差
项ut 的估计值。 根据OLS的基本原则,使直线与各散点的距 离的平方和最小,实际上是使残差平方和T (residual sum of squares, 简记RSS) ∑ ut2 t =1 最小,即最小化:
(一) 方法介绍 本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS); 最小二乘法的基本原则是:最优拟合直线应该 使各点到直线的距离的和最小,也可表述为距 离的平方和最小。 假定根据这一原理得到的α、β估计值为 、 , yt 。α + β xt = 则直线可表示为 α β
16
总体回归方程(PRF)表示变量之间的真实关 系,有时也被称为数据生成过程(DGP), PRF中的α、β值是真实值,方程为:
y t = α + β xt + u t
(2. 7)
样本回归方程(SRF)是根据所选样本估算的 变量之间的关系函数,方程为:
y = α + β xt
(2.8)
注意:SRF中没有误差项,根据这一方程得到 的是总体因变量的期望值
金融、经济变量之间的关系,大体上可以分 为两种: (1)函数关系:Y=f(X1,X2,….,XP),其中Y的 值是由Xi(i=1,2….p)所唯一确定的。 (2)相关关系: Y=f(X1,X2,….,XP) ,这里Y的 值不能由Xi(i=1,2….p)精确的唯一确定。
3
图2-1 货币供应量和GDP散点图
26
(xt x )2 成反比。 (3)参数估计值的方差与∑
其值越小,散点越集中,这样就越难准确地估 计拟合直线;相反,如果∑ (xt x ) 越大,散点
2
越分散,这样就可以容易地估计出拟合直线, 并且可信度也大得多。 比较图2-2就可以清楚地看到这点。
27
图2-2 直线拟合和散点集中度的关系
(2.32)
β β ~ N (0,1) var(β )
(2.33)
31
但是,总体回归方程中的系数的真实标准差是 得不到的,只能得到样本的系数标准差 ( SE (α )、 β )。用样本的标准差去替代总体 SE 标准差会产生不确定性,并且
α α β β SE (α ) 、 SE (β ) 将不再服从正态分布,而 服从自由度为T-2的t分布,其中T为样本容量
()
即:
α α (α ) ~ SE
tT 2
(2.34)
β β tT 2 (2.35) SE β ~
()
32
3.正态分布和t分布的关系
图2-3 正态分布和t分布形状比较
33
从图形上来看,t分布的尾比较厚,均值处 的最大值小于正态分布。 随着t分布自由度的增大,其对应临界值显 著减小,当自由度趋向于无穷时,t分布就服从 标准正态分布了。 所以正态分布可以看作是t分布的一个特例。
最小二乘法( 最小二乘法(OLS) ) 和线性回归模型
1
要点
最小二乘法的基本原理和计算方法 经典线性回归模型的基本假定 BLUE统计量的性质 t检验和置信区间检验的原理及步骤 多变量模型的回归系数的F检验 预测的类型及评判预测的标准 好模型具有的特征
2

最小二乘法的基本属性
一、有关回归的基本介绍
24
(三) OLS估计量的方差、标准差和其概率分布 1.OLS估计量的方差、标准差。 给定假设(1)-(4),估计量的标准差计算方程如 下:
SE (α ) = s
∑x T ∑ (x x )
2 t t
2
=s
∑x T ((∑ x ) Tx )
2 t 2 t 2
(2.21) (2.22)
SE β = s
∑ (y
t
yt )
2
36
TSS、ESS、RSS的关系以下图来表示更加直 观一些:
图2-4 TSS、ESS、RSS的关系
37
ESS 拟合优度 R = TSS
2
(2.37) (2.38)
因为
TSS=ESS+RSS
( yt yt ) 2 = RSS= ∑
t =1 T
( yt α β xt ) 2 ∑
t =1
T
(2.4)
14
根据最小化的一阶条件,将式2.4分别对、求 偏导,并令其为零,即可求得结果如下 :
β=
∑ x y T xy ∑ x Tx
t t 2 t 2
(2.5) (2.6)
α = y βx
19
有些模型看起来不是线性回归,但经过一些基 本代数变换可以转换成线性回归模型。例如,
y t = Ax t e
β
ut
(2.10)
可以进行如下变换:
X 令 t = ln y t 、 = ln( A)、 t = ln( xt ) ,则方程 Y α (2. 11)变为: (2.12) Yt = α + β X t + u t
ln y t = ln ( A) + β ln ( xt ) + u t
(2.11)
可以看到,模型2.12即为一线性模型。
20
4.估计量(estimator)和估计值(estimate) 估计量是指计算系数的方程;而估计值是指估 计出来的系数的数值。
21
三、最小二乘估计量的性质和分布
(一) 经典线性回归模型的基本假设 (1)E ( ut ) = 0 ,即残差具有零均值; (2)var (u t ) = σ 2<∞,即残差具有常数方差,且对 x 于所有x值是有限的; (3)cov (u i , u j ) = 0,即残差项之间在统计意义 上是相互独立的; (4)cov(u t , x t ) = 0,即残差项与变量x无关; (5)ut~N (0, σ 2 ) ,即残差项服从正态分布
7
图2-1中的直线可表示为
y= α + β x
(2.1)
根据上式,在确定α、β的情况下,给定一个x 值,我们就能够得到一个确定的y值,然而根 据式(2.1)得到的y值与实际的y值存在一个 误差(即图2-1中点到直线的距离)。
8
如果我们以u表示误差,则方程(2.1)变为:
y= α + β x + u
4
图2-1表示的是我国货币供应量M2(y)与经过 季节调整的GDP(x)之间的关系(数据为 1995年第一季度到2004年第二季度的季度数 据)。
5
但有时候我们想知道当x变化一单位时,y平均 变化多少,可以看到,由于图中所有的点都相 对的集中在图中直线周围,因此我们可以以这 条直线大致代表x与y之间的关系。如果我们能 够确定这条直线,我们就可以用直线的斜率来 表示当x变化一单位时y的变化程度,由图中的 点确定线的过程就是回归。
28
xt2 (4) ∑
项只影响截距的标准差,不影响斜率
的标准差。理由是: xt2 衡量的是散点与y轴的 ∑ 距离。 xt2 越大,散点离y轴越远,就越难准确 ∑ 地估计出拟合直线与y轴的交点(即截距); 反之,则相反。
29
2.OLS估计量的概率分布 给定假设条件(5),即u t ~N (0, σ 2 ),则 y t 也服 从正态分布 系数估计量也是服从正态分布的:
6
对于变量间的相关关系,我们可以根据大量的 统计资料,找出它们在数量变化方面的规律 (即“平均”的规律),这种统计规律所揭示 的关系就是回归关系(regressive relationship),所表示的数学方程就是回归方程 (regression equation)或回归模型 (regression model)。
11
为什么将ut 包含在模型中? (1)有些变量是观测不到的或者是无法度量 的,又或者影响因变量yt的因素太多; (2)在yt的度量过程中会发生偏误,这些偏 误在模型中是表示不出来的; (3)外界随机因素对yt的影响也很难模型化, 比如:恐怖事件、自然灾害、设备故障等。
12
二、参数的最小二乘估计
α ~ N (α , var(α ))
(2.30) (2.31)
β ~ N (β , var (β ))
30
需要注意的是:如果残差不服从正态分布,即 假设(5)不成立,但只要CLRM的其他假设条件 还成立,且样本容量足够大,则通常认为系数 估计量还是服从正态分布的。 其标准正态分布为:
α-α ~N(0,1) var(α )
22
(二)最小二乘估计量的性质 如果满足假设(1)-(4),由最小二乘法得到的估 计量 α 、β 具有一些特性,它们是最优线性无 偏估计量(Best Linear Unbiased Estimators, 简记BLUE)。
23
估计量(estimator):意味着α 、β 是包含着 真实α、β值的估计量; 线性(linear):意味着α 、β 与随机变量y之 间是线性函数关系; 无偏(unbiased):意味着平均而言,实际得 到的 α 、 值与其真实值是一致的; β 最优(best):意味着在所有线性无偏估计量 里,OLS估计量 β 具有最小方差。
17
于是方程(2.7)可以写为:
yt = α + β xt + ut
和残差项(
(2.9)
总体y值被分解为两部分:模型拟合值(
y)
ut )。
18
3.线性关系 对线性的第一种解释是指:y是x的线性函数, 比如,y=α + β x。 对线性的第二种解释是指:y是参数的一个线 性函数,它可以不是变量x的线性函数。 α + β x 2 就是一个线性回归模型, 比如,y= 但 y = α + β x 则不是。 在本课程中,线性回归一词总是对指参数β为 线性的一种回归(即参数只以一次方出现), 对解释变量x则可以是或不是线性的。
34

一元线性回归模型的统计检验
一、拟合优度(goodness of fit statistics)检验
拟合优度可用R2 表示:模型所要解释的 是y相对于其均值的波动性,即 ∑ ( y t y ) (总平方和,the total sum of squares, 简记TSS),这一平方和可以分成两部分:
相关文档
最新文档