第7章 随机解释变量
第7章 相关分析与回归分析(含SPSS)
四、偏相关分析
(一) 偏相关分析和偏相关系数 偏相关分析也称净相关分析,它在控制其他变量 的线性影响的条件下分析两变量间的线性相关性, 所采用的工具是偏相关系数(净相关系数)。
偏相关分析的主要用途是根据观测资料应用偏相 关分析计算偏相关系数,可以判断哪些解释变量对 被解释变量的影响较大,而选择作为必须考虑的解 释变量。这样在计算多元回归分析时,只要保留起 主要作用的解释变量,用较少的解释变量描述被解 释变量的平均变动量。
(7.7)
偏相关系数的取值范围及大小含义与相关系数相 同。
2、对样本来自的两总体是否存在显著的偏相关 进行推断。
(1)提出原假设:两总体的偏相关系数与零无显 著差异。
(2)选择检验统计量。偏相关系数的检验统计量 为 t 统计量。 (3)计算检验统计量的观测值和相伴概率 p 。
(4)给定显著性水平 ,并作出决策。如果相 伴概率值小于或等于给定的显著性水平,则拒绝 原假设;如果相伴概率值大于给定的显著性水平, 则不能拒绝原假设。
(二)偏相关系数在SPSS中的实现
1、建立或打开数据文件后,进入Analyze→ Correlate →Partial主对话框,如图7-6所示。
图7-6 偏相关分析主对话框
2、选择分析变量送入Valiables框,选择控制变
量进入Controlling for框。
3、在Test of Significance 栏中选择输出偏相
图7-7 偏相关分析的选项对话框
(1)Statistics 统计量选择项,有两个选项: ①
Means and standard deviations 复选项,要求
SPSSZero-order correlations 复选项,要求显示零阶
《统计学》-第7章-习题答案
第七章思考与练习参考答案1.答:函数关系是两变量之间的确定性关系,即当一个变量取一定数值时,另一个变量有确定值与之相对应;而相关关系表示的是两变量之间的一种不确定性关系,具体表示为当一个变量取一定数值时,与之相对应的另一变量的数值虽然不确定,但它仍按某种规律在一定的范围内变化。
2.答:相关和回归都是研究现象及变量之间相互关系的方法。
相关分析研究变量之间相关的方向和相关的程度,但不能确定变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况;回归分析则可以找到研究变量之间相互关系的具体形式,并可变量之间的数量联系进行测定,确定一个回归方程,并根据这个回归方程从已知量推测未知量。
3.答:单相关系数是度量两个变量之间线性相关程度的指标,其计算公式为:总体相关系数,样本相关系数。
复相关系数是多元线性回归分析中度量因变量与其它多个自变量之间的线性相关程度的指标,它是方程的判定系数2R 的正的平方根。
偏相关系数是多元线性回归分析中度量在其它变量不变的情况下两个变量之间真实相关程度的指标,它反映了在消除其他变量影响的条件下两个变量之间的线性相关程度。
4.答:回归模型假定总体上因变量Y 与自变量X 之间存在着近似的线性函数关系,可表示为t t t u X Y ++=10ββ,这就是总体回归函数,其中u t 是随机误差项,可以反映未考虑的其他各种因素对Y 的影响。
根据样本数据拟合的方程,就是样本回归函数,以一元线性回归模型的样本回归函数为例可表示为:tt X Y 10ˆˆˆββ+=。
总体回归函数事实上是未知的,需要利用样本的信息对其进行估计,样本回归函数是对总体回归函数的近似反映。
两者的区别主要包括:第一,总体回归直线是未知的,它只有一条;而样本回归直线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归直线。
第二,总体回归函数中的0β和1β是未知的参数,表现为常数;而样本回归直线中的0ˆβ和1ˆβ是随机变量,其具体数值随所抽取的样本观测值不同而变动。
【人教A版选择性必修三2021版】7_1_2 全概率公式
第七章 随机变量及其分布
1 |全概率公式及其应用
全概率公式的意义在于,当直接计算事件B发生的概率P(B)较为困难时,可以先
找到样本空间Ω的一个划分Ω=A1∪A2∪…∪An,A1,A2,…,An两两互斥,将A1,A2,…,An看 成是导致B发生的一组原因,这样事件B就被分解成了n个部分,分别计算P(B|A1),P(B |A2),…,P(B|An),再利用全概率公式求解. 运用全概率公式计算事件B发生的概率P(B)时,一般步骤如下:
P(B|A0)=1,P(B|A1)=
C149 C420
=
4 5
,P(B|A2)=
C148 C420
=
12 19
,
4
由全概率公式可得,P(B)=P(A0)P(B|A0)+P(A1)P(B|A1)+P(A2)P(B|A2)=0.8×1+0.1× 5+0.1
12
×19
≈0.94.
即顾客买下该箱玻璃杯的概率约为0.94.
(1)先求划分后的每个小事件的概率,即P(Ai), i =1,2,…,n; (2)再求每个小事件发生的条件下,事件B发生的概率,即P(B|Ai), i =1,2,…,n;
(3)最后利用全概率公式计算P(B),即P(B)=
n
P(Ai )P(B|Ai ).
i 1
第七章 随机变量及其分布
已知某超市的玻璃杯成箱出售,每箱20只,假设各箱含0,1,2只残次品的概率分别是
第七章 随机变量及其分布
装有10件某产品(其中一等品5件,二等品3件,三等品2件)的箱子中丢失了一件产品,
但不知道是几等品,现从箱中任取2件产品,结果都是一等品,则丢失的产品是一等
品的概率是多少?
计量经济学名词解释和简答题
计量经济学 第一部分:名词解释第一章1、模型:对现实的描述和模拟。
2、广义计量经济学:利用经济理论、统计学和数学定量研究经济现象的经济计量方法的统称,包括回归分析方法、投入产出分析方法、时间序列分析方法等。
3、狭义计量经济学:以揭示经济现象中的因果关系为目的,在数学上主要应用回归分析方法。
第二章1、总体回归函数:指在给定Xi 下Y 分布的总体均值与Xi 所形成的函数关系(或者说总体被解释变量的条件期望表示为解释变量的某种函数)。
2、样本回归函数:指从总体中抽出的关于Y ,X 的若干组值形成的样本所建立的回归函数。
3、随机的总体回归函数:含有随机干扰项的总体回归函数(是相对于条件期望形式而言的)。
4、线性回归模型:既指对变量是线性的,也指对参数β为线性的,即解释变量与参数β只以他们的1次方出现。
5、随机干扰项:即随机误差项,是一个随机变量,是针对总体回归函数而言的。
6、残差项:是一随机变量,是针对样本回归函数而言的。
7、条件期望:即条件均值,指X 取特定值Xi 时Y 的期望值。
8、回归系数:回归模型中βo ,β1等未知但却是固定的参数。
9、回归系数的估计量:指用01,ββ等表示的用已知样本提供的信息所估计出来总体未知参数的结果。
10、最小二乘法:又称最小平方法,指根据使估计的剩余平方和最小的原则确定样本回归函数的方法。
11、最大似然法:又称最大或然法,指用生产该样本概率最大的原则去确定样本回归函数的方法。
12、估计量的标准差:度量一个变量变化大小的测量值。
13、总离差平方和:用TSS 表示,用以度量被解释变量的总变动。
14、回归平方和:用ESS 表示:度量由解释变量变化引起的被解释变量的变化部分。
15、残差平方和:用RSS 表示:度量实际值与拟合值之间的差异,是由除解释变量以外的其他因素引起的被解释变量变化的部分。
16、协方差:用Cov (X ,Y )表示,度量X,Y 两个变量关联程度的统计量。
17、拟合优度检验:检验模型对样本观测值的拟合程度,用2R 表示,该值越接近1,模型对样本观测值拟合得越好。
新教材高中数学第七章二项分布与超几何分布:超几何分布pptx课件新人教A版选择性必修第三册
夯 实 双 基
1.判断正误(正确的画“√”,错误的画“×”)
(1)超几何分布的模型是有放回的抽样.( × )
(2)超几何分布的总体里只有两类物品.( √ )
(3)二项分布与超几何分布是同一种分布.( × )
(4)在超几何分布中,随机变量X取值的最大值是M.( × )
2.在10个村庄中,有4个村庄交通不方便,若用随机变量X表示任
分布列和期望E(X)的值.
方法归纳
求超几何分布的分布列的步骤
巩固训练2 从4名男生和3名女生中任选3人参加辩论比赛,设随机
变量X表示所选3人中女生的人数.
(1)求X的分布列;
(2)求X的均值.
题型 3 超几何分布与二项分布的区别
例3 [2022·山东济南高二期末]某试验机床生产了12个电子元件,其
100
20×40
X的数学期望为E(X)=
=8.
100Leabharlann 个红球的概率是()
37
17
A.
B.
42
10
C.
21
42
17
D.
21
答案:C
41 52
10
解析:p= 3 = .故选C.
9
21
4.已知100件产品中有10件次品,从中任取3件,则任意取出的3件
产品中次品数的数学期望为________.
0.3
解析:次品数服从超几何分布,则E(X)=3×
10
=0.3.
机抽取n件(不放回),用X表示抽取的n件产品中的次品数,则X的分布
−
−
列为P(X=k)=
,k=m,m+1,m+2,…,r.其中n,N,
M∈N*,M≤N,n≤N,m=max{0,n-N+M},r=min{n,M},则
第七章 随机变量及其分布(章末小结课件)高二数学(人教A版2019选择性必修第三册)
(2)小红和小明在研究了高尔顿板后,利用高尔顿板来到社团文化节上进行盈利性“抽奖”活动.小红使用图1所示的高尔顿板,付费6元可以玩一次游戏,小球掉入 号球槽得到的奖金为 元,其中 .小明改进了高尔顿板(如图2),首先将小木块减少成5层,然后使小球在下落的过程中与小木块碰撞时,有 的概率向左, 的概率向右滚下,最后掉入编号为1, , , 的球槽内,改进高尔顿板后只需付费4元就可以玩一次游戏,小球掉入 号球槽得到的奖金为 元,其中 .两位同学的高尔顿板游戏火爆进行,很多同学参加了游戏,你觉得小红和小明谁的盈利多?请说明理由.
方法总结 求离散型随机变量的均值、方差的步骤: 明确随机变量的取值,以及取每个值的试验结果; 求出随机变量取各个值的概率; 列出分布列; 用期望、方差公式求解; 标准差代入公式 求解.本题渗透了数据分析、数学运算的素养.
题型7 正态分布
例7 某物理量的测量结果服从正态分布 ,则下列结论中不正确的是( ).
方法总结 正态曲线的应用及求解策略:解答此类题目的关键在于将待求的问题向 , , 这三个区间进行转化,然后利用上述区间的概率求出相应的概率.解题过程渗透了直观想象、数学运算以及数据分析的素养.
高尔顿与高尔顿板
一、高尔顿简介
弗朗西斯·高尔顿( , —1911)是英国著名的统计学家、心理学家和遗传学家.他是达尔文的表弟,虽然不像达尔文那样声名显赫,但也不是无名之辈.并且,高尔顿幼年是神童,长大是才子,九十年的人生丰富多彩,是个名副其实的博学家.他涉猎范围广泛,研究水平颇深,纵观科学史,在同辈学者中能望其项背之人寥寥可数.他涉足的领域包括天文、地理、气象、机械、物理、统计、生物、遗传、医学、生理、心理等,还有与社会有关的人类学、民族学、教育学、宗教学,以及优生学、指纹学、照相术、登山术等等.
计量经济学 詹姆斯斯托克 第7章 多重共线性
1 、 2 失去了应有的经济含义,经常表现 出似乎反常的现象: 例如 1 本来应该是正 的,结果恰是负的。
4. 变量的显著性检验效果不理想
存在多重共线性时 参数估计值的方差与标准差变大 容易使通过样本计算的t 值小于临界值, 误导作出参数为0的推断 可能将重要的解释变量排除在模型之外
5. 模型的预测效果不理想
3. 第三类方法:减小参数估计量的方差
多重共线性的主要后果是参数估计量具有较 大的方差,所以采取适当方法减小参数估计量 的方差,虽然没有消除模型中的多重共线性, 但确能相对消除多重共线性造成的后果。 例如: ① 增加样本容量,可使参数估计量的方差减 小。 *② 岭回归法(Ridge Regression)
变大的方差容易使区间预测的“区间”变大, 使预测失去意义。
注意:
除非是完全共线性,多重共线性并不意味 着任何经典假设的违背; 即使出现较高程度的多重共线性,OLS估 计量仍具有线性性等良好的统计性质。 问题在于,即使OLS法仍是最好的估计方 法,它却不是“完美的”,尤其是在统计推 断上无法给出真正有用的信息。
(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则 说明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法
若 在OLS法下:R2与F值较大,但t 检验值较 小,说明各解释变量对Y的联合线性作用显著, 但各解释变量间存在共线性而使得它们对Y 的 独立作用不能分辨,故t 检验不显著。
另一等价的检验是:
在模型中排除某一个解释变量Xj,估计模型; 如果拟合优度与包含Xj时十分接近,则说明 Xj与其它解释变量之间存在共线性。
(2) 逐步回归法
第七章(滞后变量)
阿尔蒙认为连续函数bi=f(i)可以用滞后期i的适当次多项式来逼近: bi=f(i)=α0+α1i+α2i2+…+αmim (m<k)
将上一关系式代入原来的分布滞后模型,并经过适当的变 量变换,就可以减少模型中的变量个数,从而在削弱多 重共线性影响的情况下,估计模型中的参数。 bi bi * * * * * * * * * * * * i i bi= α0+α1i+α2 i2 bi= α0+α1i+α2i2 +α3i3
ˆ Y 3319 . 5 3 . 061 W 0 . 101 W 0 . 271 W t 0 t 1 t 2 t
(13.62)(1.86) (0.15) (-0.67)
求得的分布滞后模型参数估计值为
ˆ= ˆ= ˆ ˆ ˆ ˆ ˆ = 0 . 3 2 3 , = 1 . 7 7 7 , = 2 . 6 9 0 , 3 . 0 6 1 , = 2 . 8 9 1 , 2 . 1 8 0 , = 0 . 9 2 7
4、滞后变量模型的特点
⑴滞后变量模型可以更加全面、客观地描述经济现象。 ⑵使计量经济模型成为动态模型。 ⑶可以定量地描述了经济变量的滞后效应,用以分析经济系统的变 化和调整过程。 估计滞后变量模型模型时存在以下问题: (1)多重共线性 (2)滞后变量个数的增加将会降低样本的自由度
(3)难以客观地确定滞后期的长度。
经验加权法的特点是简单易行,少损失自由度,避免了多冲共线 性干扰,参数估计具有一致性。但权数设置的主观随意性较大。 通常是多选几组权数分别估计模型,再通过各种检验(R2,F,t,DW) 从中选择出一个较为合适的模型。
二、阿尔蒙估计法(S.Almom) 1、阿尔蒙估计法的原理
统计学原理 第七章课后习题及答案
第七章 相关和回归一、单项选择题1.相关关系中,用于判断两个变量之间相关关系类型的图形是( )。
(1)直方图 (2)散点图 (3)次数分布多边形图 (4)累计频率曲线图 2.两个相关变量呈反方向变化,则其相关系数r( )。
(1)小于0 (2)大于0 (3)等于0 (4)等于13.在正态分布条件下,以2yx S (提示:yx S 为估计标准误差)为距离作平行于回归直线的两条直线,在这两条平行直线中,包括的观察值的数目大约为全部观察值的( )。
(1)68.27% (2)90.11% (3)95.45% (4)99.73% 4.合理施肥量与农作物亩产量之间的关系是( )。
(1)函数关系 (2)单向因果关系 (3)互为因果关系 (4)严格的依存关系 5.相关关系是指变量之间( )。
(1)严格的关系 (2)不严格的关系(3)任意两个变量之间关系 (4)有内在关系的但不严格的数量依存关系 6.已知变量X 与y 之间的关系,如下图所示:其相关系数计算出来放在四个备选答案之中,它是( )。
(1)0.29 (2)-0.88 (3)1.03 (4)0.997.如果变量z 和变量Y 之间的相关系数为-1,这说明两个变量之间是( )。
(1)低度相关关系 (2)完全相关关系 (3)高度相关关系 (4)完全不相关 8.若已知2()x x -∑是2()y y -∑的2倍,()()x x y y --∑是2()y y -∑的1.2倍,则相关系数r=( )。
(1)1.2 (3)0.92 (4)0.65 9.当两个相关变量之问只有配合一条回归直线的可能,那么这两个变量之间的关系是( )。
(1)明显因果关系 (2)自身相关关系(3)完全相关关系 (4)不存在明显因果关系而存在相互联系 10.在计算相关系数之前,首先应对两个变量进行( )。
(1)定性分析 (2)定量分析 (3)回归分析 (4)因素分析 11.用来说明因变量估计值代表性高低的分析指标是( )。
自然语言处理-第7章 二义性的消除:使用统计方法
★
★
7.2
概率估计
★ 当我们用概率来解决二义性的问题时,通常用的是估计的概率。 ★ 一个估计方法是用单词在文集中出现的频率来代替它的概率。这种简单的 概率估计叫极大似然估计量(MLE 或 maximum likelihood estimator) 。 ★ 统计理论中的大数定律(the law of large numbers)表明:如果你有无 穷多的数据的话,你的估计值可以达到任意的精度。不过,如果只用到极 少的几个例子,那么估计值将变得非常不可靠。 ★ 考虑抛一枚硬币的情形,我们来估计正面朝上的概率。我们知道答案应该 是 0.5,所以当概率落在 0.25 与 0.75 之间时,我们认为估计值是可接受 的,其中区间 0.25 到 0.75 我们称之为误差限(margin of error) 。如果 你只做了两次试验,那么将有 4 种可能的结果——两次正面朝上,一次 正面一次反面,一次反面一次正面或者两次反面,如表 7.1 所示。
7.7
探索了建立概率驱动 获得词汇的概率 介绍了一种上下文相关的 的最佳优先剖析。 概率估计,它在上下文自由 概率性的上下文自由文法 文法里取得了很好的效果。
最佳优先剖析
一个简单的上下文相关的最佳优先剖析
概率方法提出的背景:
第六章介绍了一种启发式算法,它可以在句法分析出现 二义时用来作为选择的依据。 但是, 建立这样一个启发式算法, 是一项既困难又耗时的工作。进一步说,实际上,不存在一个 系统的方法可以用来评价启发式算法的优劣。 在这一章里, 我 们将在基于概率论的基础上探索解决这些问题的方法。 在最近 几年,由于一些关于自然语言的大型数据库,或称为文集 (corpus) , 都已经达到实用的阶段, 所以这些方法非常流行。 这些数据允许你使用一些基于统计的方法, 自动地推导出所需 的概率。最常使用的文集,是布朗文集(Brown corpus) 。 它包含了大约 100 万个词条。
7.4.2超几何分布课件-2023-2024学年高二下学期数学人教A版(2019)选择性必修第三册
分层精练 核心素养达成
1.(多选)关于超几何分布,下列说法正确的是( ACD )
P(X=3)=CC13340=310. 所以随机变量X的分布列是
X0
1
2
3
P
1 6
1 2
3 10
1 30
所以随机变量 X 的期望值为 E(X)=0×16+1×12+2×130+3×310=1.2(或 E(X) =3× 104=1.2).
思维升华
1.求解超几何分布的分布列与均值: (1)验证随机变量服从超几何分布,代入公式计算随机变量取值的概率. (2)求分布列,计算随机变量的均值. 2.若一个随机变量 X 的分布列服从超几何分布,则 E(X)=nNM.
假设每名候选人都有相同的机会被选到,若X表示选到高二(1)班的候选人的
人数,则E(X)等于( D )
3
8
3
4
A.4
B.9
C.8
D.5
解析 法一(公式法) 由题意得随机变量X服从超几何分布n=2,M=4,N=10,
则 E(X)=nNM=2×140=54. 法二 由题意知,X的可能取值为0,1,2, P(X=0)=CC12260=1455=31,
7.袋中装有5个红球和4个黑球,从袋中任取4个球,取到1个红球得3分,取到1 5
训练3 在一次购物抽奖活动中,假设10张奖券中有一等奖奖券1张,可获价值50 元的奖品,有二等奖奖券3张,每张可获价值10元的奖品,其余6张没有奖品. 某顾客甲从10张奖券中任意抽取2张. (1)求顾客甲中奖的概率;
第七章 虚拟变量和随机解释变量 (2)
第七章 虚拟变量和随机解释变量本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。
第一节 虚拟变量模型在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。
习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。
0表示变量具备某种属性,1表示变量不具备某种属性。
一、包含一个虚拟变量的模型如果我们要研究的问题中解释变量只分为两类。
则需引入一个模拟变量。
例9.1建立模型研究中国妇女在工作中是否受到歧视。
令Y=年薪,X=工作年限⎩⎨⎧=,女性,男性101D 可以建立如下模型:i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪:i i i i X B B D X Y E 10)0,(+== )2.9(女性就业者的平均年薪:210)1,(B X B B D X Y E i i i i ++== )3.9(如果B 2=0则说明不存在性别歧视,如果02<B ,则说明存在性别歧视。
图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1,即随着工龄的增长男女工资的增长幅度相同;截距不同,说明男女的初始年薪不同。
我们称这种虚拟变量只影响截距不影响斜率的模型为加法模型。
图9.1不同性别就业者的收入(加法模型,B 2<0)如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为i i i i i u X D B X B B Y +++=210 )4.9(图9.2描绘了男性年薪增加较快的情况。
我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4)如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型结合起来,得到如下模型i i i i i i u D B X D B X B B Y ++++=3210 )5.9(模型(9.5)可以用来表示截距和斜率都发生变化的模型。
计量经济学名词解释和简答题
计量经济学第一部分:名词解释第一章1、模型:对现实的描述和模拟。
2、广义计量经济学:利用经济理论、统计学和数学定量研究经济现象的经济计量方法的统称,包括回归分析方法、投入产出分析方法、时间序列分析方法等。
3、狭义计量经济学:以揭示经济现象中的因果关系为目的,在数学上主要应用回归分析方法。
第二章1、总体回归函数:指在给定Xi 下Y 分布的总体均值与Xi 所形成的函数关系(或者说总体被解释变量的条件期望表示为解释变量的某种函数)。
2、样本回归函数:指从总体中抽出的关于Y ,X 的若干组值形成的样本所建立的回归函数。
3、随机的总体回归函数:含有随机干扰项的总体回归函数(是相对于条件期望形式而言的)。
4、线性回归模型:既指对变量是线性的,也指对参数β为线性的,即解释变量与参数β只以他们的1次方出现。
5、随机干扰项:即随机误差项,是一个随机变量,是针对总体回归函数而言的。
6、残差项:是一随机变量,是针对样本回归函数而言的。
7、条件期望:即条件均值,指X 取特定值Xi 时Y 的期望值。
8、回归系数:回归模型中βo ,β1等未知但却是固定的参数。
9、回归系数的估计量:指用¶µ01,ββ等表示的用已知样本提供的信息所估计出来总体未知参数的结果。
10、最小二乘法:又称最小平方法,指根据使估计的剩余平方和最小的原则确定样本回归函数的方法。
11、最大似然法:又称最大或然法,指用生产该样本概率最大的原则去确定样本回归函数的方法。
12、估计量的标准差:度量一个变量变化大小的测量值。
13、总离差平方和:用TSS 表示,用以度量被解释变量的总变动。
14、回归平方和:用ESS 表示:度量由解释变量变化引起的被解释变量的变化部分。
15、残差平方和:用RSS 表示:度量实际值与拟合值之间的差异,是由除解释变量以外的其他因素引起的被解释变量变化的部分。
16、协方差:用Cov (X ,Y )表示,度量X,Y 两个变量关联程度的统计量。
计量经济学题库第7章多重共线性
第7章 多重共线性习 题一、单项选择题1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量( )A.不确定,方差无限大B.确定,方差无限大C.不确定,方差最小D.确定,方差最小2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的F 值确很显著,这说明模型存在( )A .多重共线性B .异方差C .自相关D .设定偏误 3.逐步回归法既检验又修正了( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为,下列表明变量之间具有完全多重共线性的是( )A .B .C .D .其中v 为随机误差项6.简单相关系数矩阵方法主要用于检验( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设为解释变量,则完全多重共线性是( )8.下列说法不正确的是( )A. 多重共线性产生的原因有模型中大量采用滞后变量,)(22很大或R R 01122i i i iY X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0i i X X ++=1200*0*0i i X X v +++=21,x x 221211211.0.021.0(.02x x A x x B x e C x x v v D x e +==++=+=为随机误差项)B. 多重共线性是样本现象C. 检验多重共线性的方法有DW检验法D. 修正多重共线性的方法有增加样本容量二、多项选择题1.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. t检验与F检验综合判断法C. DW检验法D. ARCH检验法E. White 检验2.如果模型中解释变量之间存在共线性,则会引起如下后果()A. 参数估计值确定B. 参数估计值不确定C. 参数估计值的方差趋于无限大D. 参数的经济意义不正确E. DW统计量落在了不能判定的区域3.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. DW检验法C. t检验与F检验综合判断法D. ARCH检验法E. 辅助回归法(又待定系数法)三、判断题1.多重共线性问题是随机扰动项违背古典假定引起的。
计量经济学简答题
第二部分:简答题第一章1、什么是计量经济学?答:计量经济学包括广义计量经济学和狭义计量经济学,本课程中的计量经济学模型,就是狭义计量经济学意义上的经济数学模型:计量经济学是经济学的一个分支学科,以揭示经济活动中客观存在的数量关系为主要内容,是由经济学、统计学和数学三者结合而成的交叉性学科。
2、计量经济学方法与一般经济数学方法有什么区别?答:计量经济学方法揭示经济活动中具有因果关系的各因素间的定量关系,它用随机性的数学方程加以描述;而一般经济数学方法揭示经济活动中各个因素间的理论关系,更多地用确定性的数学方程加以描述。
3、如何理解计量经济学在当代经济学科中的重要地位?当代计量经济学的基本特点?答:计量经济学自20世纪20年代末30年代初形成以来,无论在技术方法还是在应用方面发展都十分迅速,尤其是经过20世纪50年代的发展阶段和60年代的扩张阶段,计量经济学在经济学科中占据了重要的地位,主要表现在:①。
在西方大多数大学和学院中,计量经济学的讲授已成为经济学课程表中最具权威性的一部分;②。
在1969至2003年诺贝尔经济学奖的53位获奖者中有10位与研究和应用计量经济学有关,居经济学各分支学科之首。
此外,绝大多数获奖者的研究中都应用了计量经济学方法。
③。
计量经济学方法与其他经济数学方法的结合应用得到了长足发展。
从当代计量经济学的发展动向看,其基本特点包括:⑴。
非经典计量经济学的理论与应用研究成为计量经济学越来越重要的内容;⑵。
计量经济学方法从主要用于经济预测转向经济理论假设和政策假设的检验;⑶。
计量经济学模型的应用从传统的领域转向新的领域,从宏观领域的研究开始转向微观领域的研究;⑷。
计量经济学模型的规模不再是水平高低的衡量标准,人们更喜欢建立一些简单的模型,从总量上和趋势上说明经济现象。
4、建立与应用计量经济学模型的主要步骤有哪些?答:建立与应用计量经济学模型的主要步骤包括:①设定理论模型,包括选择模型所包含的变量,确定变量之间的数学关系和拟定模型中待估参数的数值范围;②收集样本数据,要考虑样本数据的完整性、准确性、可比性和一致性;③估计模型参数;④检验模型,包括经济意义检验、统计检验、计量经济学检验和模型预测检验。
统计学课后习题答案第七章 相关分析与回归分析
第七章相关分析与回归分析一、单项选择题1.相关分析是研究变量之间的A.数量关系B.变动关系C.因果关系D.相互关系的密切程度2.在相关分析中要求相关的两个变量A.都是随机变量B.自变量是随机变量C.都不是随机变量D.因变量是随机变量3.下列现象之间的关系哪一个属于相关关系?A.播种量与粮食收获量之间关系B.圆半径与圆周长之间关系C.圆半径与圆面积之间关系D.单位产品成本与总成本之间关系4.正相关的特点是A.两个变量之间的变化方向相反B.两个变量一增一减C.两个变量之间的变化方向一致D.两个变量一减一增5.相关关系的主要特点是两个变量之间A.存在着确定的依存关系B.存在着不完全确定的关系C.存在着严重的依存关系D.存在着严格的对应关系6.当自变量变化时, 因变量也相应地随之等量变化,则两个变量之间存在着A.直线相关关系B.负相关关系C.曲线相关关系D.正相关关系7.当变量X值增加时,变量Y值都随之下降,则变量X和Y之间存在着A.正相关关系B.直线相关关系C.负相关关系D.曲线相关关系8.当变量X值增加时,变量Y值都随之增加,则变量X和Y之间存在着A.直线相关关系B.负相关关系C.曲线相关关系D.正相关关系9.判定现象之间相关关系密切程度的最主要方法是A.对现象进行定性分析B.计算相关系数C.编制相关表D.绘制相关图10.相关分析对资料的要求是A.自变量不是随机的,因变量是随机的B.两个变量均不是随机的C.自变量是随机的,因变量不是随机的D.两个变量均为随机的11.相关系数A.既适用于直线相关,又适用于曲线相关B.只适用于直线相关C.既不适用于直线相关,又不适用于曲线相关D.只适用于曲线相关12.两个变量之间的相关关系称为A.单相关B.复相关C.不相关D.负相关13.相关系数的取值范围是A.-1≤r≤1B.-1≤r≤0C.0≤r≤1D. r=014.两变量之间相关程度越强,则相关系数A.愈趋近于1B.愈趋近于0C.愈大于1D.愈小于115.两变量之间相关程度越弱,则相关系数A.愈趋近于1B.愈趋近于0C.愈大于1D.愈小于116.相关系数越接近于-1,表明两变量间A.没有相关关系B.有曲线相关关系C.负相关关系越强D.负相关关系越弱17.当相关系数r=0时,A.现象之间完全无关B.相关程度较小B.现象之间完全相关 D.无直线相关关系18.假设产品产量与产品单位成本之间的相关系数为-0.89,则说明这两个变量之间存在A.高度相关B.中度相关C.低度相关D.显著相关19.从变量之间相关的方向看可分为A.正相关与负相关B.直线相关和曲线相关C.单相关与复相关D.完全相关和无相关20.从变量之间相关的表现形式看可分为A.正相关与负相关B.直线相关和曲线相关C.单相关与复相关D.完全相关和无相关21.物价上涨,销售量下降,则物价与销售量之间属于A.无相关B.负相关C.正相关D.无法判断22.配合回归直线最合理的方法是A.随手画线法B.半数平均法C.最小平方法D.指数平滑法23.在回归直线方程y=a+bx中b表示A.当x增加一个单位时,y增加a的数量B.当y增加一个单位时,x增加b的数量C.当x增加一个单位时,y的平均增加量D.当y增加一个单位时, x的平均增加量24.计算估计标准误差的依据是A.因变量的数列B.因变量的总变差C.因变量的回归变差D.因变量的剩余变差25.估计标准误差是反映A.平均数代表性的指标B.相关关系程度的指标C.回归直线的代表性指标D.序时平均数代表性指标26.在回归分析中,要求对应的两个变量A.都是随机变量B.不是对等关系C.是对等关系D.都不是随机变量27.年劳动生产率(千元)和工人工资(元)之间存在回归方程y=10+70x,这意味着年劳动生产率每提高一千元时,工人工资平均A.增加70元B.减少70元C.增加80元D.减少80元28.设某种产品产量为1000件时,其生产成本为30000元,其中固定成本6000元,则总生产成本对产量的一元线性回归方程为:A.y=6+0.24xB.y=6000+24xC.y=24000+6xD.y=24+6000x29.用来反映因变量估计值代表性高低的指标称作A.相关系数B.回归参数C.剩余变差D.估计标准误差二、多项选择题1.下列现象之间属于相关关系的有A.家庭收入与消费支出之间的关系B.农作物收获量与施肥量之间的关系C.圆的面积与圆的半径之间的关系D.身高与体重之间的关系E.年龄与血压之间的关系2.直线相关分析的特点是A.相关系数有正负号B.两个变量是对等关系C.只有一个相关系数D.因变量是随机变量E.两个变量均是随机变量3.从变量之间相互关系的表现形式看,相关关系可分为A.正相关B.负相关C.直线相关D.曲线相关E.单相关和复相关4.如果变量x与y之间没有线性相关关系,则A.相关系数r=0B.相关系数r=1C.估计标准误差等于0D.估计标准误差等于1E.回归系数b=05.设单位产品成本(元)对产量(件)的一元线性回归方程为y=85-5.6x,则A.单位成本与产量之间存在着负相关B.单位成本与产量之间存在着正相关C.产量每增加1千件,单位成本平均增加5.6元D.产量为1千件时,单位成本为79.4元E.产量每增加1千件,单位成本平均减少5.6元6.根据变量之间相关关系的密切程度划分,可分为A.不相关B.完全相关C.不完全相关D.线性相关E.非线性相关7.判断现象之间有无相关关系的方法有A.对现象作定性分析B.编制相关表C.绘制相关图D.计算相关系数E.计算估计标准误差8.当现象之间完全相关的,相关系数为A.0B.-1C.1D.0.5E.-0.59.相关系数r =0说明两个变量之间是A.可能完全不相关B.可能是曲线相关C.肯定不线性相关D.肯定不曲线相关E.高度曲线相关10.下列现象属于正相关的有A.家庭收入愈多,其消费支出也愈多B.流通费用率随商品销售额的增加而减少C.产量随生产用固定资产价值减少而减少D.生产单位产品耗用工时,随劳动生产率的提高而减少E.工人劳动生产率越高,则创造的产值就越多11.直线回归分析的特点有A.存在两个回归方程B.回归系数有正负值C.两个变量不对等关系D.自变量是给定的,因变量是随机的E.利用一个回归方程,两个变量可以相互计算12.直线回归方程中的两个变量A.都是随机变量B.都是给定的变量C.必须确定哪个是自变量,哪个是因变量D.一个是随机变量,另一个是给定变量E.一个是自变量,另一个是因变量13.从现象间相互关系的方向划分,相关关系可以分为A.直线相关B.曲线相关C.正相关D.负相关E.单相关14.估计标准误差是A.说明平均数代表性的指标B.说明回归直线代表性指标C.因变量估计值可靠程度指标D.指标值愈小,表明估计值愈可靠E.指标值愈大,表明估计值愈可靠15.下列公式哪些是计算相关系数的公式16.用最小平方法配合的回归直线,必须满足以下条件A.∑(y-y c )=最小值B.∑(y-y c )=0C.∑(y-y c )2=最小值D.∑(y-y c )2=0E.∑(y-y c )2=最大值17.方程y c =a+bx222222)()(.)()())((...))((.y y n x x n yx xy n r E y y x x y y x x r D L L L r C L L L r B n y y x x r A xxxy xyyy xx xyy x ∑-∑⋅∑-∑∑⋅∑-∑=-∑⋅-∑--∑===--∑=σσA.这是一个直线回归方程B.这是一个以X为自变量的回归方程C.其中a是估计的初始值D.其中b是回归系数E.y c是估计值18.直线回归方程y c=a+bx中的回归系数bA.能表明两变量间的变动程度B.不能表明两变量间的变动程度C.能说明两变量间的变动方向D.其数值大小不受计量单位的影响E. 其数值大小受计量单位的影响19.相关系数与回归系数存在以下关系A.回归系数大于零则相关系数大于零B.回归系数小于零则相关系数小于零C.回归系数等于零则相关系数等于零D.回归系数大于零则相关系数小于零E.回归系数小于零则相关系数大于零20.配合直线回归方程的目的是为了A.确定两个变量之间的变动关系B.用因变量推算自变量C.用自变量推算因变量D.两个变量相互推算E.确定两个变量之间的相关程度21.若两个变量x和y之间的相关系数r=1,则A.观察值和理论值的离差不存在B.y的所有理论值同它的平均值一致C.x和y是函数关系D.x与y不相关E.x与y是完全正相关22.直线相关分析与直线回归分析的区别在于A.相关分析中两个变量都是随机的;而回归分析中自变量是给定的数值,因变量是随机的B.回归分析中两个变量都是随机的;而相关分析中自变量是给定的数值,因变量是随机的C.相关系数有正负号;而回归系数只能取正值D.相关分析中的两个变量是对等关系;而回归分析中的两个变量不是对等关系E.相关分析中根据两个变量只能计算出一个相关系数;而回归分析中根据两个变量只能计算出一个回归系数三、填空题1.研究现象之间相关关系称作相关分析。
本科计量第七版习题参考答案
第六章动态经济模型:自回归模型和分布滞后模型6.1 (1)错。
(2)对。
(3)错。
估计量既不是无偏的,又不是一致的。
(4)对。
(5)错。
将产生一致估计量,但是在小样本情况下,得到的估计量是有偏的。
(6)对。
6.2对于科克模型和适应预期模型,应用OLS法不仅得不到无偏估计量,而且也得不到一致估计量。
但是,部分调整模型不同,用OLS法直接估计部分调整模型,将产生一致估计值,虽然估计值通常是有偏的(在小样本情况下)。
6.3科克方法简单地假定解释变量的各滞后值的系数(有时称为权数)按几何级数递减,即:Yt=α+βXt÷β λ Xt-ι ÷β λ2χt.2 +...+ ut其中O<λ<l0这实际上是假设无限滞后分布,由于0<入<1, X的逐次滞后值对Y的影响是逐渐递减的。
而阿尔蒙方法的基本假设是,如果Y依赖于X的现期值和若干期滞后值, 则权数由一个多项式分布给出。
由于这个原因,阿尔蒙滞后也称为多项式分布滞后。
即在分布滞后模型工=α + β0X t + B1X—+∙∙∙ ++ %中,假定:βi =tz0 +tz1z + a2i2 H ------ F a p i p其中P为多项式的阶数。
也就是用一个P阶多项式来拟合分布滞后,该多项式曲线通过滞后分布的所有点。
6.4(1)估计的Y值是非随机变量X1和X2的线性函数,与扰动项v无关。
(2)与利维顿方法相比,本方法造成多重共线性的风险要小一些。
6.5(1)M∣= aγxγ2+ βλγλY t-∕3lχl(l-χ2)Y l.l+ β2γ2R t-β2r2(1 -∕1)R t.l ÷(2 - ∕l—χ2)μt-∖-(1-∕ι )(1-Yι)M t_2÷[u t—(2 —∕1-χ2)〃1 ÷(I -∕ι )(1-Yz )u t-21 其中&)是a、为和72的函数。
(2)第(1)问中得到的模型高度参数非线性,它的参数需采用非线性回归技术来估计。
计量经济学习题第7章单方程回归模型的几个专题
计量经济学习题第7章单方程回归模型的几个专题第7章单方程回归模型的几个专题一、名词解释1、虚拟变量2、模型设定误差3、工具变量4、工具变量法5、变参数模型6、分段线性回归模型7、虚拟变量模型二、简答题1、模型中引入虚拟变量的作用是什么?2、虚拟变量引入的原则是什么?3、虚拟变量引入的方式及每种方式的作用是什么?4、判断计量经济模型优劣的基本原则是什么?5、模型设定误差的类型有那些?6、工具变量选择必须满足的条件是什么?7、滞后变量模型包括哪几种类型?写出各自的模型形式。
8、设定误差产生的主要原因是什么?9、在建立计量经济学模型时,什么时候,为什么要引入虚拟变量?三、单项选择题1、设某地区消费函数i i i x c c y μ++=10中,消费支出不仅与收入x 有关,而且与消费者的年龄构成有关,若将年龄构成分为小孩、青年人、成年人和老年人4个层次。
假设边际消费倾向不变,则考虑上述构成因素的影响时,该消费函数引入虚拟变量的个数为()A.1个B.2个C.3个D.4个2、当质的因素引进经济计量模型时,需要使用()A. 外生变量B. 前定变量C. 内生变量D. 虚拟变量3、.由于引进虚拟变量,回归模型的截距或斜率随样本观测值的改变而系统地改变,这种模型称为()A. 系统变参数模型B.系统模型C. 变参数模型D. 分段线性回归模型4、.假设回归模型为i i i x y μβα++=,其中Xi 为随机变量,Xi 与Ui 相关则β的普通最小二乘估计量( )A.无偏且一致B.无偏但不一致C.有偏但一致D.有偏且不一致5、假定正确回归模型为i i i i x x y μββα+++=2211,若遗漏了解释变量X2,且X1、X2线性相关则1β的普通最小二乘法估计量( )A.无偏且一致B.无偏但不一致C.有偏但一致D.有偏且不一致6、对于误差变量模型,模型参数的普通最小二乘法估计量是( )A.无偏且一致的B.无偏但不一致C.有偏但一致D.有偏且不一致7、系统变参数模型分为( )A.截距变动模型和斜率变动模型B.季节变动模型和斜率变动模型C.季节变动模型和截距变动模型D.截距变动模型和截距、斜率同时变动模型8、虚拟变量( )A.主要来代表质的因素,但在有些情况下可以用来代表数量因素B.只能代表质的因素C.只能代表数量因素D.只能代表季节影响因素9、. 分段线性回归模型的几何图形是( )A.平行线B.垂直线C.光滑曲线D.折线10、如果一个回归模型中不包含截距项,对一个具有m 个特征的质的因素要引入虚拟变量数目为( )A.mB.m-1C.m-2D.m+111、设某商品需求模型为Yt=β0+β1Xt+Ut ,其中Y 是商品的需求量,X 是商品的价格,为了考虑全年12个月份季节变动的影响,假设模型中引入了12个虚拟变量,则会产生的问题为()A .异方差性B .序列相关C .不完全的多重共线性D .完全的多重共线性四、多项选择题1、系统变参数模型中,参数变化是( )A.随机的B.离散的C.非随机的D.连续的E.系统的2、在包含有随机解释变量的回归模型中,可用作随机解释变量的工具变量必须具备的条件有,此工具变量( )A.与该解释变量高度相关B.与其它解释变量高度相关C.与随机误差项高度相关D.与该解释变量不相关E.与随机误差项不相关3、关于虚拟变量,下列表述正确的有()A .是质的因素的数量化B .取值为l 和0C .代表质的因素D .在有些情况下可代表数量因素E .代表数量因素4、虚拟变量的取值为0和1,分别代表某种属性的存在与否,其中()A 、0表示存在某种属性B 、0表示不存在某种属性C 、1表示存在某种属性D 、1表示不存在某种属性E 、0和1代表的内容可以随意设定5、在截距变动模型i i i x D y μβαα+++=10中,模型系数()A 、0α是基础类型截距项B 、1α是基础类型截距项C 、0α称为公共截距系数D 、1α称为公共截距系数E 、01αα-为差别截距系数6、对于线性回归模型i i i i Dx x D y μββαα++++=)(2110,其中D 为虚拟变量,有()A 、其图形是两条平行线B 、基础类型的截距项是0αC 、基础类型的截距为1βD 、差别截距系数为1αE 、差别斜率系数为12ββ-7、对于分段线性回归模型t t t t D x x x y μβββ+-++=)(*210,其中()A 、虚拟变量D 代表品质因素B 、虚拟变量D 代表数量因素C 、以*x x t =为界,前后两段回归直线的斜率不同D 、以*x x t =为界,前后两段回归直线的截距不同E 、该模型是系统变参数模型的一种特殊形式五、计算题1、家庭消费C ,除依赖于收入Y 之外,还同下列因素有关:(1)民族:汉、蒙、满、回、藏(2)家庭小孩数:没有孩子、1-2个孩子、3个及以上孩子(3)户主的文化程度:高中以下、高中、大专以上试设定该家庭消费函数的回归模型。
统计学 第七章 分布滞后模型与自回归模型
量的滞后期长度。
9
1.分布滞后模型
被解释变量受解释变量的影响分布在解释变量 不同时期的滞后值上,即模型形如
Yt 0 Xt 1Xt1 2 Xt2 s Xts ut
具有这种滞后分布结构的模型称为分布滞后模型,
其中 为滞s 后长度。根据滞后长度 取s为有限
(7.8)
i=0
将(7.8)滞后一期,有
∞
Yt-1 = α + β0
λi-1 X t -i + ut -1
i=1
(7.9)
31
对(7.9)式两边同乘 λ并与(7.8)式相减得:
∞
∞
Yt - λYt-1 = (α + β0 λi Xt-i +ut ) - (λα + β0 λi Xt-i + λut-1)
6
二、滞后效应产生的原因
心理预期因素 技术因素 制度因素
7
三、滞后变量模型
滞后变量:是指过去时期的、对当前被解释变量 产生影响的变量。滞后变量分为滞后回归模型称为滞 后变量模型。
8
滞后变量模型的一般形式为
Yt 0 Xt 1Xt1 2 Xt2 s Xts 1Yt1 Y2 t2 Yq tq ut
28
库伊克假定:
对于如下无限分布滞后模型:
Yt = α + β0 Xt + β1 Xt-1 + β2 Xt-2 + +ut (7.6) 可以假定滞后解释变量 X t-i 对被解释变量 Y 的影 响随着滞后期 i 的增加而按几何级数衰减。即滞
后系数的衰减服从某种公比小于1的几何级数:
βi = β0λi , 0 λ 1 , i 0,1, 2,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第7章 随机解释变量单方程线性计量经济学模型假定解释变量是确定性变量,并且与随机误差项不相关,违背这一基本假设的问题被称为随机解释变量问题。
本章介绍了随机解释变量问题的概念、产生的原因和后果、检验方法以及解决方法。
随机解释变量问题的概念对于计量经济模型n21i i k i k i 22i 110 ,,,ββββ=+++++=u X X X Y i(7.1.1)其中一个基本假设是解释变量k 21,,X X X 是确定性变量,即解释变量与随机扰动项不相关。
但是在现实经济生活中,这个假定不一定成立,这一方面是因为用于建模的经济变量的观测值一般会存在观测误差,另一方面是经济变量之间联系的普遍性使得解释变量可能在一定程度上依赖于应变量,即解释变量X 影响应变量Y ,而应变量Y 也会反过来影响解释变量X 。
模型中如果存在一个或多个随机变量作为解释变量,就称为模型出现了随机解释变量问题。
其中k x 可能与随机误差项u 不相关,就是说,解释变量121,,-k x x x 都是外生的,但k x 有可能在方程(4.4.1)中是内生的,则称原模型存在随机解释变量问题。
内生性可能源自于省略误差、测量误差,联立性等①。
为讨论方便,我们假设中2X 为随机解释变量。
在模型()中,根据解释变量2X 与随机误差项的关系,可以分为三种类型: 1)随机解释变量与随机干扰项独立)()(),(),(222===u E x E u x E u X Cov(7.1.2)2)随机解释变量与随机干扰项同期无关但异期相关n 21i 0),(),(i 2i 2 ,,,===u x E u X Cov i i①具体详见《Econometric analysis of cross section and panal data 》(Jeffrey Wooldrige,2007 )。
(7.1.3)n21i 0),(),(s -i 2s -i 2 ,,,=≠=u x E u X Cov i i(7.1.4)3)随机解释变量与随机干扰项同期相关n 21i 0),(),(i 2i 2 ,,,=≠=u x E u X Cov i i(7.1.5)实际经济问题中的随机解释变量在许多经济现象中,自变量的非随机性假定有时是不符合实际的。
因为,⑴ 许多经济变量是不能用控制的方法进行观测的,所以作为模型中的解释变量其取值就不可能是确定的,而是随机的。
⑵ 由于随机误差项中包含了模型中略去的解释变量,而略去的解释变量同模型中保留的解释变量往往存在一定的相关关系。
⑶ 在自回归模型中,因变量作为解释变量也必定是随机变量。
因此,我们必须对模型中的解释变量为随机变量且与随机项相关的情形进行讨论。
在单方程计量经济学模型中,凡是外生变量都被认为是确定性的,于是随机解释变量问题主要变现于用滞后被解释变量作为模型的解释变量的情况。
同时,由于经济活动具有连续性,使得这类模型在以时间序列数据作样本的模型中占据较大份额。
例如,消费不仅受收入的影响,还受前期消费水平的影响。
投资不仅受收入的影响,还受前期投资水平的影响。
但是,并不是所有包含滞后被解释变量的模型都会带来随机解释变量问题,下面通过几个例子来说明。
耐用品的存量由前一个时期的存量和当期收入共同决定,于是著名的“耐用品存量调整模型”表示为t t t t u Q I Q +++=-1210βββ n t ,,3,2,1 = (7.2.1)这是一个滞后被解释变量作为解释变量的自回归模型。
但是如果模型中不存在随机误差项的序列相关性,那么随机解释变量t t t u u Q 相关,而与只与11--不相关,属于上述的第一种情况。
再如,在著名的“合理预期的消费函数模型”中,首先认为消费是由对收入的预期所决定的,或者说消费是有计划的,而这个计划是根据对收入的预期制定的。
于是有:1110110---++=++=t e t t t e t t u IC u I C ββββ (7.2.2)其中,et I 表示t 期收入预期值,而预期收入与实际收入之间存在差距,用函数形式表现出来为:()e t t e t I I I 11-+-=λλ (7.2.3)该式是由合理预期理论给出来的,因此可以进一步推导出()t e t t t u I I C ++-+=-11101λβλββ()()t t t t u u C I +--+-+=--101101βλλββ()()111011---++-+-=t t t t u u C I λλλβλβ (7.2.4) 在该模型中,作为解释变量的1-t C 是一个随机解释变量,同时由于11--t t u C 与高度相关,所以它与模型(7.2.4)中的随机误差项1--t t u u λ也高度相关。
属于上述第三种类型。
随机解释变量的后果当模型存在随机解释变量时,如果仍采用普通最小二乘法估计模型参数,不同性质的随机解释变量会产生不同的后果。
对一元线性回归模型i i 10μββ++=X Y i在前面得到如下最小二乘估计量:(7.3.1)随机解释变量X 与随机干扰项μ的关系不同,参数OLS 估计量的统计性质也会不同。
7.3.1估计量的渐近特征如果一个变量是随机变量,它的精确抽样分布是很难找到的,只能是渐进结果。
例如,∑∑∑∑+==2iii12iii1y xx x x μββ当线性回归模型满足最小二乘法的假定条件时,其参数的最小二乘估计量具有无偏性和有效性。
优势最小二乘估计量并不具有这种统计特征,但随着样本容量的增加却具有了这种特征。
1)渐近无偏性设∧nβ是参数β的估计量,其中n 为样本容量,设依次抽样的样本容量n 分别为r n n n <<< 21,则∧nβ是一个随机变量,其数学期望值为E(∧n β),方差为Var(∧nβ)=E[∧nβ-E(∧nβ)]2。
随着样本容量n 取值的不同,得到下面随机解释变量序列|∧nβ|∧∧∧=rn n n βββ,,,21| E(∧nβ)|∧∧∧=)(,,)(),(21rn n n E E E βββ| Var(∧nβ)|222)]([,,)]([,)]([2211∧∧∧∧∧∧---=rr n n n n n n E E E E E E ββββββ (7.3.2)所谓渐近分布是指。
当样本容量n 趋于无穷大时,上面各随机变量序列分别收敛到一定分布。
对于均值、方差存在以下关系。
)E() E( n∧∧∞→=ββn Lim2n)]E([E ) Var( ∧∧∧∞→-=βββn Lim (7.3.3)其中)E(∧β,2)]E([E ∧∧-ββ分别是∧nβ的渐近期望值和渐进方差。
如果ββ=∧∞→) E( nn Lim则称∧nβ是β的渐近无偏估计。
即当样本容量n 充分大时,∧nβ的均值趋向于总体参数β。
以上的讨论是在样本容量充分大的情况下进行的。
如果小样本估计量是有偏的,但其估计量具有渐近无偏性,我们就可以增加样本来优化估计结果。
2)一致性一致性估计是指对于任意给定的两个任意小的正数ηε,,总存在一个充分大的样本容量0n ,使得当n>0n 时,满足ηεββ->⎭⎬⎫⎩⎨⎧<-∧1||n P (7.3.4)称估计序列ββ是∧n 的一致估计序列,即当样本容量n 充分大时,∧nβ值趋向于总体真实值的概率接近于1,记为ββ=∧∞→nn L P im (7.3.5)也可以简记为 ββ=∧lim P综上所述,由数理统计的理论可知,要想建立一个一致性估计量,必须满足两个条件ββ=∧∞→)(im n n E L 和0)(im =∧∞→nn Var L β即估计量∧nβ具有渐近无偏性,并且当样本容量充分大时,∧nβ的方差趋近于0。
3)随机解释变量模型最小二乘估计量的统计特征 随机解释变量X 的OLS 估计量可能出现下面三种情况(1)如果X 与随机误差项u 相互独立,即0)()()(==i i i i u E X E u X E ,得到的参数估计量仍然是无偏一致估计量。
由于()∑∑∑∑-=-=ii i i iii u X u X u X Xu x因此则有 []1211)()(1)(βββ=-+=∑∑∑∧iii i u E X u X E x E (7.3.6)这说明∧1β是1β的无偏估计量。
同理可以证明∧0β是0β的无偏估计量。
(2)如果X 与μ同期不相关,而异期相关,得到的参数估计量有偏,但却是一致的。
由(7.3.1)易知(7.3.7) 尽管i X 与i u 同期无关,但对任一的分母中一定包含不同期的X ;由异期相关性知i k 与i u 相关,导致,ββ1i )ˆ(≠E 即参数估计量是有偏的。
但是∑∑∑+=+=)()()ˆ(i1i 211μβμββi ii k E x xE E 1i 12i 12i i )(ar ),(ov )1lim()1(lim )(lim βμβμβμβ=+=+=+∑∑∑∑∞→i i i i i i n X V X C x nP x n P x x P(7.3.8)即在假定01im2≠∑i x nL P 的情况下,分子项等于0,于是上式成立。
这说明最小二乘估计量∧1β虽然是有偏的,但它是1β的一致估计量。
(3)如果随机解释变量X 与随机误差项u 同期相关,得到的参数估计量有偏且非一致。
由于 Cov ()0,≠i i u X 所以则有0),(1im≠=∑i i i i u X Cov u X nL P (7.3.9) 即12111lim 1lim 1limlim βββ≠-+=∑∑∑∧i ii i x nP u n P X u X n P P (7.3.10)这说明最小二乘估计量∧1β是有偏的,也不是1β的一致估计量。
同理也可以证明∧0β是有偏的,也不是0β的一致估计量。
但是需要注意的是,如果模型中带有滞后被解释变量作为解释变量,则当该滞后被解释变量与随机干扰项同期相关时,普通最小二乘估计量是有偏的且非一致的。
即使同期无关,其普通最小二乘估计量也是有偏的,因为此时肯定会出现异期相关。
总之,在存在随机解释变量问题时,采用OLS 法估计模型参数,得到的参数估计量在小样本情况下是有偏的,在大样本情况下也不具有渐进无偏性,就有可能产生严重的误导结果。
随机解释变量的检验(内生性)随机解释变量的内生性检验在国内,暂时还很少提及,这里简单介绍下国外学者的主要检验方法之一—豪斯曼检验(Hausman,1978)。
举例说明,假定我们有单一的被怀疑的内生变量u z z x y ++++=231210ββββ (7.4.1)其中,假定x 是内生性变量,21,z z 是外生的。
如果x 与u 不相关,我们应该用OLS 法估计(4.4.20)模型。