抗差估计,有偏估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由于粗差的分布不同,不能象偶然误差一样 有一个统一的正态分布,有统一的处理方法。所 以不同的粗差分布对应了不同的处理方法。
1、Huber法 2、一次范数最小法 3、p范最小法 4、丹麦法 5、Hampel法


1、Huber法
2v v 2 v v v 2 , 4 signv v 2 v 2
2、选权迭代法中,第一次按最小二乘平差求得 的残差受粗差的影响很大,由此将影响迭代的 权函数P(v)的选择,可能导致错误的收敛。


3、为避免选权迭代法的初值受LS平差法的影响, 可以采用线性规划中的单纯形法进行初值确定。
数学模型: 目标函数: f x C T X min 约束函数: AX b, X 0
高斯断言:如果最小二乘估计量不是最优估值的话,那 么,观测列中必存在一种来自外界的、未知的干扰因 素所致。现已知,这种未知的干扰因素就是粗差。 稳健估计的目标: 1、在采用的假定模型下,所估计的参数应具有最优或接 近最优; 2、如果实际模型与假定模型存在较小的偏差,则对应的 估计参数所受影响也较小; 3、即使实际模型与假定模型有较大偏差,其参数估值的 性能也不应太差,不至于对估值产生灾难性后果。
5
B
4
H1
1
3
6
H3 A
2
7
H2
v5 0.01 2.90 1.49 1.53 1.23 0.48
v6 -10.48 6.00 9.42 9.41 9.68 10.75
v7 1.86 -3.42 -1.42 -1.39 -1.42 -1.10
选权迭代法的缺陷:

1、由于粗差的大小及位臵未知,只能以残差来 研究,且目标函数选择成为残差v的函数,这 并不一定符合实际。
数据偏离正态分布的原因: (1)有粗差(观测、记录、数据输入等)
(2)数据组合与舍入误差 (3)就算数据中无粗差存在,但其分布仍有微小明显的偏离正态 趋势 (4)观测值之间并非完全独立
F、t、u、2 四种检验方法由于都取决于正态分布的母体, 故对于偏离正态分布的数据检验是不可靠的。
举例:
观测值为5.001 , 5.002 , 4.998 , 4.993 , 5.001 , 5.008 , 5.500 , 4.997 ˆ 5.0625 其最小二乘估值,即算 术平均值为: x
i 1 i i 1 i
n
n
由于 vi 或 vi 选择的不同,会得到不 同的M估计法,其稳健性也不同。
基本思想: (1)平差仍采用经典的最小二乘平差形式; (2)每次平差后根据残差和有关参数构成下一步 的权函数; (3)迭代中止时相应的残差将直接指出粗差所在 的位臵。平差后有: 保权区--正常观测值 降权区--非正常但可用的观测值 除权区--含粗差的观测值
抗差估计实质:牺牲最小二乘估计的最优性,达到抵抗粗 差污染的目的。 抗差估计的特点:当观测数据的实际分布偏离假定模型时 的不敏感性。其对子样分布要求不十分严格,只要子样 近似服从某一模型。
若母体确实为正态时,抗差估计值无最小二乘估计值优良。
最小二乘估计的优点:能够抵御大量随机小误差 对参数估值的影响;估值无偏,方差最小。 估值的效率问题:可削弱大量小误差对参数估值 的影响。 抗差能力的标志:估值能容忍的粗差个数。 抗差估计的适用范围:在确定性模型中有大量正 确的观测值存在,仅有少数几个是不正确的; 统计模型就不一定了,如果轨迹模型是你自己 定的,出界的点被认为是粗差而剔除,这是不 正确的。所以抗差估计适合确定性模型而不适 合拟合模型。
2 v 2 v 2 4 v 4
1 v 2 pv 1 v 2 v

2、一次范数最小法(L1估计)(中位数法)
v v
1 pv v k

3、P范最小法(LP法)
v v
pv v
在观测数据中出现0.2%的粗差时,最小二 乘估值便失去了其最优性,但0.2%的粗差概率 完全正常,特别是在现代的大数据量自动测量中。 所以经典平差适用的范围狭窄。
抗差估计指导思想:在抗差能力和效率(指估值最优性) 中求得最佳平衡。一般要求其效率达到经典平差效率的 90%以上。是在抗差的前提下谈效率。
为残差vi的函数 最小二乘法中, vi Pi vi2
i 1 i
n
所以,也可以定义 M估计--由 vi min 式定义的
i 1
n
一类估计。 而由 vi min 也可引申到其导数 vi 的定义
i 1 n
v v 0


其中:F 受污染的分布。 F 无粗差的主体分布。
污染率。 x 粗差分布。在x (粗差)质量为 1的 0
1 分布,其概率密度函数 :f x 0 在x x0处 在其它处
实用中,影响函数为: ˆ F ˆ F ˆ IF l , F , sn ˆF 用全部的n个观测值算得的估值
广义极大似然估计--M估计 M估计--经典极大似然估计的推广,最接近传 统的最小二乘估计。
设有一组独立观测值 L1,L2, ,Ln,设其对应的 ˆ L , X ˆ 参数估值 误差的密度函数为 f X

i

以极大似然法思想,一 组独立小误差联合出现 的 概率密度最大,即
ˆ L f X ˆ L f X ˆ L max G f X 1 2 n
T T
目标函数:z 30x1 40x2 0 s1 0 s2 0 s3 max
单纯形—凸类中的一种,在其内部任意两点间的 连线仍处于图形的内部。 单纯形法—极点迭代法。沿着凸多面体的棱向另 一个极点迭代,使目标函数的值逐次下降。

标准形式: 目标函数: min(或 max) c1 x1 c2 x2 cn xn a11 x1 a12 x2 a1n xn b1 a21 x1 a22 x2 a2 n xn b2 约束条件 am1 x1 am 2 x2 amn xn bm 并且要求满足:未知量 xi 0, i 1,2,, n (1)
抗差估计 稳健估计= 估计 Robust 鲁棒估计
用 i 3识别粗差时,实际问题 中和常未知, 故观测数n很小时此法很不可靠, 但简单易行。
高斯-马尔柯夫模型( 经典平差模型) : E L BX , E 0 L BX 2 1 D L D P 用于定义完全服从正态 分布的观测数据。
例:某厂生产甲乙两种 产品,均需要在一车间 和二车间的机械上加 工,用料均为钢材,每 个甲产品得利润 30元,乙产品得利润 40元, 可供资源如表,问:如 何安排生产可在计划期 间获得最大利润? 解:目标函数: z 30x1 40x2 max x1 x2 600 x 1.5 x 750 1 2 约束条件: 0.5 x2 200 x1 , x2 0 最优解是在可行解区域 内并且使z 30x1 40x2离原点最远的点上。
模型误差的产生和分类 模型误差:模型与客观实际的误差,也分为粗差、系 统误差和偶然误差。 有粗差时用经典平差模型或无粗差时用抗差模型,都 会产生模型误差。
污染分布: F 1 F x 受污染(有粗差)部分 的数据在整个数据组中 的 比例。
F 主体分布, x--干扰分布, --污染率,
随着估计函数 v 选取的不同,构成了不同 的权函数形式,形成了不同的选权迭代法。

权函数 PV 选取的要求: (1)平差后粗差观测值的权应趋近于0,其 余多余观测值的权趋近于1; (2)迭代中止时,不含粗差的观测值的权应 等于验前给定或验后方差估求的,平差应 回到通常的最小二乘法平差; (3)权函数的选择应保证迭代尽快收敛。
p
1
2 p

4、IGG法(周江文法)
v 2 2 v v d 1 1 pv v 0 v 1.5 1.5 v 2.5 v 2.5 v 1.5 1.5 v 2.5 v 2.5
k

5、经典最小二乘法(不具有抗差性)
选权迭代法的迭代公式 Pj ˆ x V
k
vi
vi
vi
k
k 1
k 1

k k
B P
T

V B
1
B P
T
k
V l
k ˆ Bx l
迭代到前后两次解的差 值符合限差要求为止。 当观测值等权时, P V 的初值用单位阵 I代入。
一、影响函数 影响函数是用来判断估计量对异常值敏感程度的 指标,即一个附加的观测值对估值的影响的大小。 影响函数定义式:
ˆ1 F ˆ F ˆ F ˆ F x ˆ lin IF l , F , lin
令权函数为:Pj vi
vi vi
vi vi
式中下标表示: j 第j个观测值的权函数 i 第i次平差后第j个观测值的残差 选权迭代法法方程的矩 阵形式: ˆ B T PV l 0 B T PV Bx 其中每次平差的权阵为 PV diagP P2 vi Pn vi 1 vi 估计准则: 若权阵PV 是常数阵,M估计就成为最小二乘估 计 V T PV V min
n

或: 或:
ˆ ln f X L max
i 1 n i i 1 i

ˆ L min ln f X
选用函数(增长较慢的极小化残 差函数)代替 上式中的 ln f,使其定义式广义化:
v min
vi 称为目标函数、极值函 数或估值函数,其



ˆF 用剔除s个粗差后的数据算得的 估值。 s 粗差个数,n 观测值个数。 s n 污染率。
影响函数的重要用途:
(1)若影响函数无界,则一个粗差可彻底破坏估计量,此时该 种方法就不具有抗差性;
(2)大于某个限差的粗差应对平差结果不产生影响,即应设一 个影重要。
v pv
2
v 2 pv pv c
如图,为模拟水准网,7个观 测值配赋了随机误差,在第六条路 线的观测高差中附加了10mm的粗 差。用各种算法结果列于下表。从 表中看各种选权迭代法均有抗差性, 而最小二乘法不具有抗差性。
v1 给定误差 L2 L1~2 L1 Huber法 丹麦法 0.64 -2.29 -1.41 -1.45 -0.95 -0.58 v2 0.73 0.53 0 0 -0.20 -0.10 v3 -0.84 -0.81 0.07 0.03 0.53 0.98 v4 -0.26 2.57 -0.03 0 -0.23 0.39
图解法的重要结论: 可行解的区域为凸多边形,其最优解若存在, 一定在某个极点(顶点)上。 最优解:能使线性规划目标达到极值的可行解。
在上例中加入松弛变量 si i 1,2,3,使线性规划的模型标 准化: 600 x1 x2 s1 x 1.5 x s2 750 1 2 约束条件: 0.5 x2 s3 200 x1 , x2 , s1 , s2 , s3 0 方程的初始解为: x 0 s1 s2 s3 x1 x2 600 750 200 0 0
相关文档
最新文档