第七章设定误差与数据问题(计量)

合集下载

误差及误差分析-数据的误差处理-PPT课件

误差及误差分析-数据的误差处理-PPT课件

实验数据
X1
X2
x11
x21
x12
x22
x13
x23
x14
x24
x15
x25
x16
x26
1.由测量数据计算直接测量量的最佳估计值 x 1 , x 2 3.计算直接测量量的不确定度 (1)计算X1的A类标准不确定度 (2)计算X1的B类标准不确定度 (3)计算X1的合成标准不确定度
uA(x 1) s(x 1)
3、平均值的最后一位与不确定度的最后 一位必须对齐,多余数字按4舍5入规 则进行取舍。
3,u (v)=0.54cm3, 例如: =242.63cm c V 不确定度保留一位,V=(242.6±0.6)cm3。 不确定度保留了两位,V=(242.63±0.54)cm3。
数据处理的步骤
,X ) 实验测量式 Yf(X 1 2
说明:对于被测量Y的平均值 y ,按如下方式计算:
y f ( xx ,2 , ) 1
d 2h 【例题】圆柱体的体积公式为 V 。设已经 4 测得 , ,写出体积的相对合成 d du d ) hhu h ) c( c( 标准不确定度表达式。 解:此体积公式形如
p p N 1 p 2 Y f (, X X , X ) c X X X 12 N 1 2 N
a uB ( x ) k
k 是包含因子,取决于测量值的分布规律。
说明 包含因子k和半宽a 的确定方式为: (1)如果检定证书、说明书等资料明确给出了不确 a, U x) x) 定度 U ( 及包含因子 时,则 B( 类标准不 k 确定度为 a U (x) u ) B(x k k 【例题】校准证书上给出标称值为1kg的砝码质 k 3 1 0 0 0 . 0 0 0 3 2 g 量m ,包含因子 ,(扩展)不确定度 为U = 0.24 mg,由此可确定砝码的B类标准不确 定度

大学物理实验理论误差与数据处理PPT课件

大学物理实验理论误差与数据处理PPT课件

或确不定S ( y 度y ) iN 1 l必x in f然S (造x i)A 成 2 y的iN 1 不 lx 确in f定S (x 度i)B 2 1 2 iN 1 。 各 lx in f x i的2 S i2 不 1 2

第26页/共61页
区间的概率是68.3(%返,回与)不确定度的
第21页/共61页
B类不确定度的评定
在测量过程中,必然涉及所用材料的一般特性参数、 制造说明书、检定证书、所用仪器所提供的检定数据 以及取自手册的一些参数,这些都会造成测量结果的 不确定性。这类不确定性不能用统计分析的方法加以 评定,这称为B类评定,评定的依据就是上述内容提
P
50% 68.3% 90% 95% 99% 99.7%
KP 0.6745 1
1.645 1.96 2.576 3
由表可知,129m是由标准不确定度乘以2.576得到的, 所以电阻R的B类标准不确定度SB=129mg/2.576=50mg。
(3)通常信息给出的是仪器误差限
许多仪器给出的不是不确定度,而是误差限△,则B 类标准不确定度为 SB K。其中系数K视△的概率分 布而定,若△为正态分布,则K=3;若为均匀分布,则 K 3 ;若为三角分布 K 6 。高级别的仪器△可 视为正态分布,通常△均视为均匀分布。
第14页/共61页
§3.3 算术平均值与标准偏差
1、算术平均值 一组测量数据 x1,x2,xn 的算术平均值为: xx1x2xn n 算术平均值是真值的最佳近似值,因为
lim lim lim n 1 n i n 1i 0 n 1 n i n 1x i A n 1 n i n 1x i A
第19页/共61页
§1.1 直接测量不确定度的评定

误差理论与数据处理课件(很实用)

误差理论与数据处理课件(很实用)

报告审核与修改
对报告进行同行评审或专家审核,根据反馈 进行必要的修改和完善。
06
案例分析与实践
案例一:医学数据处理
总结词
医学数据处理是误差理论应用的重要领域,涉及临床 试验、诊断、治疗等多个方面。
详细描述
医学数据处理中,误差的来源包括测量误差、随机误 差和系统误差等。这些误差可能导致数据失真,影响 医学研究的准确性和可靠性。因此,医学数据处理需 要遵循严格的标准和规范,如临床试验数据管理规范 、医疗器械检测标准等。同时,医学数据处理也需要 采用各种误差处理技术,如数据清洗、数据变换、数 据筛选等,以减小误差对数据的影响。
数据预处理包括数据的排序、筛选、分组和编码等操作,为后续的数据分析提供 准确和一致的数据集。
03
误差的识别与控制
系统误差的识别与控制
系统误差的识别
系统误差通常表现为数据呈现一定的 规律性偏差,可以通过对比实验数据 与理论值、检查实验装置和环境条件 等方式进行识别。
系统误差的控制
控制系统误差的方法包括改进实验装 置、优化实验环境、采用标准仪器和 设备、定期校准和检测等措施,以减 小系统误差对数据的影响。
先滞后关系。
时间序列平稳性
检验时间序列数据的平 稳性,以确定是否适合
进行时间序列分析。
05
实验设计与数据分析
实验设计原则
01
02
03
04
科学性原则
实验设计应基于科学理论和实 践经验,确保实验的合理性和
可行性。
随机性原则
实验对象的分配应随机化,以 减少系统误稳定性和可靠性
案例二:金融数据分析
总结词
金融数据分析中,误差的来源包括数据采集、数据处 理和数据分析等多个环节。

计量经济学第七章evkc

计量经济学第七章evkc

以进口支出一例说明,考虑模型
Yi B1 B2 X i ui
(1)
2024/8/7
15
模型选择:标准与检验
第7 章
RESET检验步骤如下:
1. 根据模型估计出Y值,Yˆi。
2. 回得到残模 差型 和Y,ˆi之把间Yˆi的的系高统次关幂系,Yˆ。i2,考Yˆi虑3 等模纳型入模型以获
Yi B1 B2 X i B3Yˆi2 B4Yˆi3 vi (2)
2024/8/7
11
模型选择:标准与检验
第7 章
残差检验
残差图可以显示模型中的设定误差,如遗漏了某个 重要变量或使用了不正确的函数形式。
考虑进口支出对PDI和时间的回归。若错误估计回 归
Yi B1 B2 X i vi
vi B3 X 3i ui
注意:在任何情形下,对估计模型的残差 图进行检验都是建模过程中不可或缺的重 要内容。
这两个模型的函数形式不同,如果选择了错误的 函数形式,估计系数可能是真实系数的有偏估计值。 例7-3 美国进口货物的支出
2024/8/7
7
模型选择:标准与检验
7.6 度量误差
第7 章
度量误差的后果取决于误差是产生于应变量还是 解释变量。
➢应变量中的度量误差
OLS估计量及其方差是无偏的,但是估计量的估计方差比 没有独立误差时的大。
反映出真实 的随机误差 和变量X3。
2024/8/7
12
模型选择:标准与检验
第7 章
3.在线性和对数线性模型之间选择:MWD检验
以进口支出一例说明:
H0: 线性模型:Y是X的线性函数。 H1:对数线性模型:lnY是X或lnX的线性函数。
MWD检验步骤如下:

误差与实验数据的处理优秀课件.pptx

误差与实验数据的处理优秀课件.pptx

例2:在吸光光度分析中,用一台旧仪器测定溶液6次,得标准偏 差S1=0.055,再用一台性能稍好的新仪器测定4次,得标准偏差S2 =0.022。问新仪器的精密度是否显著地优于旧仪器的精密度?
解: 依题意,新仪器性能稍好,它的精密度不会比旧 仪器的差,所以,属于单边检验。
(1)旧仪器:n1 6, s1 0.055, s大2 0.0552 0.003
(4)查表:t95%,8 2.31 (5) : t计 t表,
有显著性差异
四、可疑测定值的取舍
平行测定的数据中,有时会出现一两个与其结果 相差较大的测定值,称为可疑值或异常值 对于为数不多的测定数据,可疑值的取舍往往对 平均值和精密度造成相当显著的影响。
检 验 原因不明 可疑值
过失
舍去
随机误差
(一)Q检验法
由于格鲁布斯法引入了t分布中最基本的两个
参数 x和s,故该方法的准确度较Q法高。
统计检验的正确顺序:
可疑数据取舍
F 检验
精密度
t 检验
准确度
例6:6次标定某NaOH溶液的浓度,其结果为0.1050 mol/L, 0.1042 mol/L,0.1086 mol/L,0.1063 mol/L,0.1051 mol/L, 0.1064 mol/L。用格鲁布斯法判断0.1086 mol/L这个数据是否 应该舍去?(P=0.95)
F计=
0.755 0.287来自2.63F0.10,5,6 4.39
在90%的置信度下,看不出显著性差异。
(三) 两组数据平均值的比较 (F检验和t检验,同一试样)
新方法--经典方法(标准方法) 两个分析人员测定的两组数据 两个实验室测定的两组数据
F检验法:两组实验结果的精密度检验

误差理论与数据处理实验

误差理论与数据处理实验

实验一 误差的性质与处理一、实验的目的了解误差的基本性质以及处理方法。

二、实验原理(1)算术平均值对某一量进行一系列等精度测量,由于存在随机误差,其测得值皆不相同,应以全部测得值的算术平均值作为最后的测量结果。

算术平均值的意义:在系列测量中,被测量所得的值的代数和除以n 而得的值成为算术平均值。

算术平均值与真值最为接近,由概率论大数定律可知,若测量次数无限增加,则算术平均值x 必然趋近于真值0L 。

设 1l ,2l ,…,n l 为n 次测量所得的值,则算术平均值121...nin i l l l l x n n=++==∑i i v l x =-,其中i l 为第i 个测量值,1,2,,i n =,i v 为i l 的残余误差(简称残差)(2)算术平均值的计算校核算术平均值及其残余误差的计算是否正确,可用求得的残余误差代数和性质来校核。

残余误差代数和为:11n niii i v l nx ===-∑∑当x 为未经凑整的准确数时,则有:1nii v==∑01)残余误差代数和应符合:当1n ii l =∑=nx ,求得的x 为非凑整的准确数时,1nii v =∑为零;当1nii l =∑>nx ,求得的x 为凑整的非准确数时,1nii v =∑为正;其大小为求x 时的余数。

当1nii l =∑<nx ,求得的x 为凑整的非准确数时,1nii v =∑为负;其大小为求x 时的亏数。

2)残余误差代数和绝对值应符合:当n 为偶数时,1nii v=∑≤2nA;2当n 为奇数时,1ni i v =∑≤0.52n A ⎛⎫- ⎪⎝⎭式中A 为实际求得的算术平均值x 末位数的一个单位(3)测量的标准差测量的标准偏差称为标准差,也可以称之为均方根误差。

1)测量列中单次测量的标准差σ==式中n 为测量次数(应充分大)i δ 为测得值与被测量值的真值之差σ=2)测量列算术平均值的标准差:x σ=三、实验内容1.对某一轴径等精度测量8次,得到下表数据,求测量结果。

误差分析与数据处理ppt课件.ppt

误差分析与数据处理ppt课件.ppt
(4)缓变误差: 是指数值上随时间缓慢变化的误差,一般它是由零部件的
老化、机械零件内应力变化引起的。由于它有不平稳随机 过程的特点,误差值在单调缓慢变化,因此不能象对系统 误差那样引进一次修正量即能校正,又不能象对一般随机 误差那样按平稳随机过程的特点来处理,因而常需不断进 行校正,测量准确度与对仪器仪表的校正周期有关。
1) 直间接测量:从一个或几个直接测
或量具就可直接得到被测量 量结果按一定的函数关系计算出来
值的测量;
的过程,称为间接测量。
➢例如:用直尺测量长度;
以表计时间;
天平称质量;
M
安培表测电流。
d
V hd 2
h
4
M V
4M
d 2h
1
2)等精度测量和非等精度测量
2
1.2真值、代表值与误差
1.2.1真值
指在某一时刻和某一位置的某个物理量客观存在的真实值。严 格地讲,真值是无法测得的,只能测得真值的近似值。实际应 用中真值是指测量次数无限多时的平均值作为真值。
➢理论真值:理论上证明过的某些已知的固定量值,如三角 形之和为180º。
➢约定真值:国际计量组织通过决议规定的某些计量单位的 量值,如规定铂铱合金的国际千克原器为1kg的质量单位。 光在真空中1s时间内传播距离的1/299792485为1米。
仪器
天平不等臂
6
➢系统误差的分类
1)按系统误差产生的原因分 ➢设备误差:由于测量仪器、工具的不准确或安装不正确造成的,如 仪器的零位不准,空行程、不水平、不垂直、导线的影响等。 ➢环境误差:由于测量环境条件变化的影响,如温度、压力、外电磁 场的影响。 ➢人员误差:由测量人员自身造成的,如读数的偏大、偏小、测量的 超前或滞后等。 ➢方法误差:由于测量方法不完善,计算公式的近似简化引起的。

误差理论与数据处理 全套课件

误差理论与数据处理 全套课件

2021/7/14
二、误差公理
13
误差公理:测量结果都具有误差, 误差自始至终存在于一切科学实验和测 量的过程之中。误差具有普遍性和必然 性。
2021/7/14
第一章 误差14的基本概念
2021/7/14
教学目的和要求
15
通过本章内容的教学,使学生对误差的 定义、表达方法、分类和误差来源等基本概 念有一个系统全面的了解,为后续内容学习 打下基础。要求学生理解真值的概念,掌握 误差最常用的表达方式,了解误差来源的分 析方法,正确使用近似数的修约准则。
23
等权测量
指在测量过程中,测量仪器、测量方法、测量条 件和操作人员都保持不变。因此,对同一被测量进 行的多次测量结果可认为具有相同的信赖程度,应 按同等原则对待。
不等权测量
指测量过程中测量仪器、测量方法、测量条件或 操作人员某一因素或某几因素发生变化,使得测量结 果的信赖程度不同。对不等权测量的数据应按不等权 原则进行处理。
力有限而 器所特有 磨损、疲劳
造成的读 的量化误 所造成的误
数误差 差

2021/7/14
测量方法误差
39
指使用的测量方法不完善,或采用近似的计算 公式等原因所引起的误差 ,又称为理论误差
2021/7/14
测量方法误差
40
第一种情况:由于测量人员的知识不足或研究不充分以致操作 不合理,或对测量方法、测量程序进行错误的简化等引起的方 法误差。
当一个仪表的等级s选定后,用此表测量某一被 测量时,所产生的最大绝对误差为
m am s%
绝对误差的最大值与 该仪表的标称范围 (或量程)上限xm成 正比
2021/7/14
【例1-2】

《误差以及数据处理》课件

《误差以及数据处理》课件
显著性检验
通过假设检验来判断样本数据与总体数据之 间是否存在显著差异。
五、案例分析
实际应用案例分析数据Fra bibliotek理实践演练通过实际案例对误差的处理方法进行应用和演练, 深入理解数据处理的过程。
学习如何利用数据处理技巧来解决实际问题,培 养数据处理的实践能力。
六、总结与展望
1 误差的影响及其处
理方法
了解误差对数据分析和 决策的影响,并掌握相 应的处理方法,提高数 据处理的准确性和精确 度。
3
数据汇总
将数据按照不同的维度进行汇总和归纳,以获取更多洞察和分析。
4
数据分析
使用统计方法和数据挖掘技术来探索数据之间的关系和规律。
四、误差处理方法
线性回归
通过建立线性模型来描述变量之间的关系, 用于预测和估计。
置信区间
通过计算统计量的置信区间来评估参数估计 的精度和可靠性。
最小二乘法
通过最小化误差的平方和来求解参数,用于 拟合数据和求解优化问题。
3 准确度
4 精确度
准确度是指测量结果与真实值之间的接近 程度,可以通过准确度指标来衡量。
精确度是指重复测量的结果之间的一致性 和稳定性,可以通过精确度指标来衡量。
三、数据处理
1
数据收集
收集准确、全面的数据对于后续的数据处理至关重要。
2
数据整理
整理数据包括数据清洗、缺失值处理和异常值处理等步骤,以提高数据的质量。
《误差以及数据处理》PPT课 件
一、引言
数据处理在科学研究和实际应用中的重要性不言而喻。了解误差的定义和分 类是为了更好地处理数据。
二、测量误差
1 绝对误差
2 相对误差
绝对误差是实际测量值与理论预测值之间 的差异,用于评估测量的准确性。

误差理论与数据处理课件(全)

误差理论与数据处理课件(全)

个数K 46 41 33 21 16 13 5 2 0 177
+△ 频率K/n 0.128 0.115 0.092 0.059 0.045 0.036 0.014 0.006
0 0.495
(K/n)/d△ 0.640 0.575 0.460 0.295 0.225 0.180 0.070 0.030 0
(四)复杂规律变化的系统误差
(一)实验对比法 (二)残余误差观测法
(五)计算数据比较法
(一)从产生误差根源上消除系统误差 (二)用修正方法消除系统误差 (三)不变系统误差消除法 1。替代法 2。抵消发 3。交换法
一、粗大误差产生的原因 (1)测量人员的主观原因 (2)客观外界条件的原因
第一节:研究误差的意义 1、始终存在着误差 意义:
1)正确认识误差的性质,分析误差产生 的原因,以消除和减少误差。
2)正确处理测量和实验数据 3)正确组织实验过程
由于误差的存在,使测量数据之间产生矛 盾。
( )实际 180
( )理论 180
测量仪器:i角误差、2c误差 观测者:人的分辨力限制 外界条件:温度、气压、大气折光等
……
2.40~2.60 >2.60

个数K 40 34 31 25 20 16 …… 1 0 210
—△ 频率K/n 0.095 0.081 0.074 0.059 0.048 0.038
(4)( AT )1 ( A1)T
(5)对称矩阵的逆仍为对称矩阵。
(6)对角矩阵的逆仍为对角矩阵且:
A1 (diag (a11, a22,ann ))1 diag( 1 , 1 1 )
a11 a22 ann
(1)伴随矩阵法:
设Aij为A的第i行j列元素aij的代数余子式,则由 n*n个代数余子式构成的矩阵为A的伴随矩阵 的转置矩阵A*称为A的伴随矩阵。

第七章设定误差与数据问题(计量)

第七章设定误差与数据问题(计量)

第七章 设定误差与数据问题设定误差(specification error )指的是模型本身的设定就存在误差,如解释变量选择不当、测量误差、函数形式不妥等。

7.1遗漏变量 (Omitted variables )由于某些数据难以获得,遗漏变量现象几乎是难以避免的。

假设真实的模型为:i i i i x x y εββ+′+′=2211,其中可以是向量。

21,x x 而估计的模型为:i i i u x y +′=11β,即遗漏变量22βi x ′被归入扰动项中去了。

i u考虑以下的两种情形:(1)遗漏变量与包含的解释变量不相关,即2i x 1i x ()0,cov 21=i i x x 。

在这种情况下,根据大样本理论,最小二乘法依然是一致的。

但由于遗漏变量22βi x ′被归入扰动项中,可能会增大扰动项的方差,从而影响最小二乘法估计的精确度。

i u(2)遗漏变量与包含的解释变量相关,即2i x 1i x ()0,cov 21≠i i x x 。

在这种情况下,根据大样本理论,最小二乘法不再是一致的,其偏差被称为“遗漏变量偏差”(omitted variable bias )。

这种偏差在经济计量的实践中比较常见,成为某些计量研究的致命伤。

比如,在研究教育投资的回报率时,个体的先天能力差异是不可观测的,但能力与受教育年限很可能存在正相关。

解决“遗漏变量偏差”的方法主要有加入尽可能多的控制变量、使用代理变量(proxy variable )、工具变量法(第八章),使用面板数据(第九章)、以及随机实验等。

这里主要介绍代理变量法。

比如,在教育投资回归中,可以使用智商(IQ )来作为个体能力的代理变量。

一个理想的代理变量要满足以下两个条件:(1)多余性(redundancy ):即代理变量仅通过影响遗漏变量来作用于被解释变量。

比如,“智商”仅通过对“能力”的影响来影响收入。

换言之,假如有“能力”的数据,那么再引入“智商”来作为解释变量就是多余的。

误差以及数据处理PPT课件

误差以及数据处理PPT课件
[例1] 利用差减法用万分之一分析天平称量
两试样,测得质量分别为0.0051g 和5.1253g。
计算两次称量的相对误差。说明什么问题?
解:
RE1
E1 100% 0.0002100% 4%
T
0.0051
RE2
E2 T
100%
0.0002100% 5.1253
0.004%
当绝对误差相同时,测定值越大,相
用4d法
判断可疑值20.10%是否应保留?
第18页/共44页
解: x 20.18% 20.16% 20.20% 20.18% 4
20.18% d 0.00% 0.02% 0.02% 0.00%
4 0.01% 4d 0.04% | x x || 20.10% 20.18% | 0.08% 4d 20.10应舍弃。
=1.060 + 0.060 – 0.001=1.119 3.对于乘除运算,最后结果的有效数字位数应与 算式中有效数字位数最少的保持一致。 例如:35.6724 × 0.0017 × 4700
解答见课本P17—18页
第27页/共44页
1.5 提高测定准确度的措施
使用仪器进行测量时造成的绝对误差大小,是由 仪器本身的精度决定的。如万分之一分析天平的绝 对误差为+ 0.1mg,50mL滴定管的绝对误差 +0.01mL
如果要求分析误差不超过0.1%,用万分之一的 分析天平差减法称量试样,称取样品的重量至少需 ________克;滴定分析时滴定剂用量至少____mL.
n
(2)根据置I信m 度P和a自由g度fe 查t 值表。P13

若t计算大于t表值,则存在显著差异。
第23页/共44页

计量经济学(Econometrics)

计量经济学(Econometrics)
课程学时:48学时(课内实验16学时)
课程学分:3学分
课程概述:计量经济学是一门以经济理论为基础
以统计数据为依据
以数学为方法
定量研究具有随机特征的经济现象及经济变量之间数量关系的一门经济学科
是经济学研究常用的一种方法
是当前经济学研究的一个重要分支
其研究方法主要以回归分析方法为基础
主要包括单方程计量经济模型
2005
[10] 于俊年.计量经济学.对经济贸易大学出版社
2000
[11] 袁建文.经济计量学实验.科学出版社
2002
[12] 易丹辉.数据分析与eviews应用.中国统计出版社
2002
[13] 高铁梅.计量经济分析方法与建模--Eviews应用及实例.清华大学出版社
2006
其他说明:课程中所有的例子和问题我们使用EVIEWS4.1来计算
2.异方差的检验 第五章
第一~三节 11. 异方差II
自相关I 1.异方差的解决方法
2.自相关的概念及后果 第五章
第四节
第六章
第一、二节 12. 上机实验3 多元线性回归模型的参数估计与假设检验 上机实验指导书3 13. 自相关II 1.自相关的检验
2.自相关的解决方法 第六章
联立方程模型
向量自回归模型
时间序列分析等
本课程是一门为本科生开设的入门性质的计量经济学课程
主要讲述:(1)单方程计量经济模型:a)经典线性回归模型b)违背经典假设的回归c)线性回归模型的扩展d)模型设定误差(2)联立方程模型:a)基本概念;b)模型识别;c)参数估计
时间:周二上午8:00-9:50
周四上午8:00-9:50

计量基础知识(数据处理及误差分析)课件

计量基础知识(数据处理及误差分析)课件

提高测量数据的可靠性
质量控制
通过评估和减小不确定度,可以提高测量 数据的可信度和可靠性。
在生产过程中,通过控制测量不确定度, 可以保证产品质量的一致性和稳定性。
贸易结算
科学研究
在贸易结算中,计量器具的准确度和不确 定度是贸易双方结算的依据,因此不确定 度的评估非常重要。
在科学实验中,准确测量和不确定度的评 估是得出科学结论的重要依据,有助于推 动科学技术的发展。
计量器具的特性参数
包括灵敏度、分辨率、动态响应时间 等。
计量器具的维护与保养
定期检查、清洗、保养,保证计量器 具的准确性和可靠性。
计量方法
01
02
03
04
直接计量法
直接用计量器具测量被测对象 的方法。
比较测量法
通过比较标准量与被测对象量 之间的差异来测量被测对象的
方法。
间接测量法
通过测量与被测对象相关的其 他量,再通过计算得到被测对
人为操作误差
测量人员的操作不规范、读数 不准确或记录错误等人为因素 引起的误差。
方法与理论误差
由于测量方法或理论模型的不 完善或近似处理,导致的误差。
误差分类
01
02
03
系统误差
在相同条件下多次测量同 一量时,误差大小和符号 保持恒定或按一定规律变 化的误差。
随机误差
由于偶然因素引起的误差, 其大小和符号无法预测。
粗大误差
明显超出规定条件下预期 范围的误差,通常由测量 过程中的失误或异常情况 引起。
误差处理
修正系统误差
通过引入修正值或对测量设备进行校准,减 小系统误差的影响。
识别和消除粗大误差
通过严格的操作规程和审查测量数据,识别 并消除粗大误差。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第七章 设定误差与数据问题设定误差(specification error )指的是模型本身的设定就存在误差,如解释变量选择不当、测量误差、函数形式不妥等。

7.1遗漏变量 (Omitted variables )由于某些数据难以获得,遗漏变量现象几乎是难以避免的。

假设真实的模型为:i i i i x x y εββ+′+′=2211,其中可以是向量。

21,x x 而估计的模型为:i i i u x y +′=11β,即遗漏变量22βi x ′被归入扰动项中去了。

i u考虑以下的两种情形:(1)遗漏变量与包含的解释变量不相关,即2i x 1i x ()0,cov 21=i i x x 。

在这种情况下,根据大样本理论,最小二乘法依然是一致的。

但由于遗漏变量22βi x ′被归入扰动项中,可能会增大扰动项的方差,从而影响最小二乘法估计的精确度。

i u(2)遗漏变量与包含的解释变量相关,即2i x 1i x ()0,cov 21≠i i x x 。

在这种情况下,根据大样本理论,最小二乘法不再是一致的,其偏差被称为“遗漏变量偏差”(omitted variable bias )。

这种偏差在经济计量的实践中比较常见,成为某些计量研究的致命伤。

比如,在研究教育投资的回报率时,个体的先天能力差异是不可观测的,但能力与受教育年限很可能存在正相关。

解决“遗漏变量偏差”的方法主要有加入尽可能多的控制变量、使用代理变量(proxy variable )、工具变量法(第八章),使用面板数据(第九章)、以及随机实验等。

这里主要介绍代理变量法。

比如,在教育投资回归中,可以使用智商(IQ )来作为个体能力的代理变量。

一个理想的代理变量要满足以下两个条件:(1)多余性(redundancy ):即代理变量仅通过影响遗漏变量来作用于被解释变量。

比如,“智商”仅通过对“能力”的影响来影响收入。

换言之,假如有“能力”的数据,那么再引入“智商”来作为解释变量就是多余的。

(2)将遗漏变量剔除代理变量影响后的剩余部分与解释变量不相关。

命题:如果上述两个条件满足,则使用代理变量就能获得一致的估计量。

证明:假设真实模型为:εγβββ+++++=q x x y K K ...110,其中q 为不可观测的遗漏变量。

假定()0,cov =εi x ,但遗漏变量q 与某解释变量相关(),i x K i ≤≤1即,故最小二乘法不是一致的。

假设找到了一个代理变量z ,满足()0,cov ≠q x i v z q ++=10δδ,其中()0,cov =v z 。

根据第一个条件(多余性),代理变量z 只通过q 对y 发生作用,因此与y 的扰动项ε不相关,即()0,cov =εz 。

根据第二个条件,q 的扰动项v 与所有的解释变量均不相关,即,()0,cov =v x i K i ,...,1=∀。

将q 的表达式代入原模型可得,()()εγγδββγδβ+++++++=v z x x y K K 11100...,其中εγ+v 为新的扰动项。

容易证明新扰动项与所有解释变量均不相关:()()()000,cov ,cov ,cov =+=+=+εγεγi i i x v x v x()()()000,cov ,cov ,cov =+=+=+εγεγz v z v z因此,使用代理变量后,最小二乘法是一致的。

■在实际操作上,对于代理变量是否满足以上两个条件,也只能做定性的讨论,无法严格检验。

如果使用不满足这两个条件的不完美代理变量(imperfect proxy ),则仍会导致不一致的估计。

7.2无关变量(Irrelevant variables )假设真实的模型为:i i i x y εβ+′=11而估计的模型为:i i i i x x y εββ+′+′=2211,即加入了与y 无关的解释变量。

由于与y 无关,故根据定义,也与y 的扰动项2i x ′2x 2x ε无关,即()0,cov 2=i i x ε。

因此,最小二乘法仍然是一致的,即,。

但是,引入无关变量后,由于受到无关变量的干扰,估计量的方差增大了。

总之,对于解释变量的选择最好要遵循经济理论的指导。

11ˆlim ββ=∞→n p 0ˆlim 2=∞→βn p 1ˆβ7.3 建模的策略:“由小到大”还是“有大到小”“由小到大”(specific to general )的建模方式首先从小模型开始,然后再逐渐增加解释变量。

从理论上来说,这种方法的缺点是,小模型很可能存在遗漏变量,这样系数估计量就不一致,t 检验、F 检验都可能失效,因此很难确定该如何取舍变量。

与此相反,“有大到小”(general to specific )的建模方式从一个尽可能大的模型开始,收集所有可能的解释变量,然后再逐步剔除不显著的解释变量。

这样做虽然冒着包含“无关变量”的危险,但其危害性毕竟没有“遗漏变量”严重。

然而,在实际操作上,常常很难找到所有与被解释变量相关的解释变量。

因此,在计量的实证研究上,常常是采用以上两种策略的折衷方案。

7.4 解释变量个数的选择好的经济理论应该用尽可能简洁的模型来尽可能好地描述复杂的现实世界。

但这两个目标常常是矛盾的。

在计量模型的设定上,增加更多的解释变量虽然可以提供模型的解释力(拟合优度),但也牺牲了模型的简洁性(parsimony )。

我们需要在模型的解释力与简洁性之间找到一个最佳的平衡。

在时间序列模型里,常常要选择包括多少期的滞后变量。

可供选择的指标包括:(1)校正的可决系数2R :选择解释变量的个数以最大化2R 。

(2)赤池信息准则(Akaike Information Criterion ,即AIC )Kmin K nn e e AIC 2log +⎟⎠⎞⎜⎝⎛′≡其中第一项为对模型拟合度的奖励,而第二项则为对解释变量过多的惩罚。

当K 上升时,第一项下降而第二项上升。

(2)贝叶斯信息准则(Bayesian Information Criterion ,即BIC )或施瓦兹信息准则(Schwarz Information Criterion ,即SIC )K min K n nn e e AIC log log +⎟⎠⎞⎜⎝⎛′≡ 一般来说,(除非样本容量很小)。

因此,BIC 对于解释变量过多的惩罚比AIC 严厉。

2log >nStata 命令:reg y x1 x2 x3estat ic (ic 表示information criterion )7.5 对函数形式的检验显然,很多经济关系是非线性的。

因此,多元线性回归只能被看作是一种一阶线性近似。

但是,二阶乃至高阶的非线性部分真的不重要吗?为此,常使用Ramsey’s RESET (Regression Equation Specification Error Test )检验。

其基本思想是:如果你怀疑非线性项被遗漏了,那么就引入非线性项来检验它们的系数是否显著。

假设线性回归模型为:εβ+′=x y回归后可得拟合值。

既然是解释变量x 的一个线性组合,就包含了中各解释变量二次项(含平方项与交叉项)的信息,以此类推,就包含了中各解释变量四次项的信息。

考虑一个新的回归:b x y′=ˆy ˆ2ˆy 4ˆy εδδδβ++++′=443322ˆˆˆy y yx y 对原假设0:4320===δδδH 做F 检验。

如果拒绝,则说明模型中应该有高次项;如果接受,就说明可以使用线性模型。

RESET 检验的缺点是在拒绝的情况下,它并不提供具体需要将哪些高次项加入模型的信息。

0H 0H 0HStata 命令:reg y x1 x2 x3estat ovtest (使用,,) 2ˆy3ˆy 4ˆy estat ovtest,rhs (使用解释变量的幂来代替的幂) yˆ其中,ovtest 代表omitted variable test ,因为遗漏高次项的后果类似于遗漏解释变量。

比如,假设真实模型为()εγβα+++=2x x y ,但被遗漏。

显然,2x γ()()()()0,cov ,cov ,cov ,cov 222≠=+=+x x x x x x x γεγεγ。

因此,遗漏高次项也会导致遗漏变量偏差。

对于如何确定回归方程的函数形式,最好是从经济理论出发,即通过经济模型的推导来得到回归方程的具体形式。

比如,通过对人力资本模型的研究可知,教育投资回报率方程应该采用单对数形式。

7.6 多重共线性(Multicollinearity 或collinearity )如果数据矩阵X 不满列秩,即某一解释变量可以由其他解释变量线性表出,则存在“严格多重共线性”。

此时,()1−′X X 不存在,最小二乘法无法定义,总体参数β不可识别。

“严格多重共线性”在现实数据中很少出现,即使出现Stata 也会自动识别并删去多余解释变量。

较为常见的是近似的多重共线性,表现为如果将第k 个解释变量对其余的解释变量回归,所得到的可绝系数较高。

在存在多重共线性的情况下,OLS 仍然是最佳线性无偏估计(BLUE ),即在所有线性无偏估计中具有最小的方差。

但这并不意味着OLS 估计量方差在绝对意义上小。

由于存在多重共线性,K k k x x x x ,...,,,...,111+−2k R X X ′变得几乎不可逆,故从某种意义上来说,()1−′X X 变得很“大”,致使方差增大。

在这种情况下,只要X 矩阵中元素轻微地变化,就可能引起()()12|var −′=X X X b σ()1−′X X 极大的变化,进而导致OLS 估计值b 发生很大变化。

通常的症状是虽然整个回归方程的2R 较大、F 检验也很显著,但单个系数的t 检验却不显著,或者系数估计值大小不合理、甚至符号与理论预期相反。

可以证明,协方差矩阵主对角线上第k 个元素可以表示为:()()kkkk SR X b 221|var −=σ,其中()∑=−≡ni k ik kk x x S 12k x 为的离差平方和。

定义方差膨胀因子(Variance Inflation Factor )为211kk R VIF −≡,则 ()kkkk S VIF X b 2|var σ=。

VIF 越大则说明多重共线性问题越严重。

一个经验规则是最大的{}K VIF VIF VIF ,...,max 1=不超过10。

Stata 命令:estat vif (将列出所有解释变量的VIF 值)解决多重共线性的方法:(1)如果多重共线性并不影响你所关心变量的显著性,那么可以不必理会(do nothing )。

在有“方差膨胀”的情况下,你所关心的系数依然显著;如果没有多重共线性,则这些系数将更加显著。

相关文档
最新文档