第十一章稳健统计方法简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在初等统计教材中,通常都介绍如何判断离群点 简单说 在初等统计教材中 通常都介绍如何判断离群点.简单说 通常都介绍如何判断离群点 简单说, 离群点就是远离样本主体的点;严格说来 离群” 严格说来,”离群 离群点就是远离样本主体的点 严格说来 离群”是相 对 于假定的模型而言.对于正态分布样本点 j,若类似于 检 对于正态分布样本点x 于假定的模型而言 = ( x j − x ) ( s n ) T1 对于正态分布样本点 若类似于t检 大于某临界值,则大致 验统计量的标准 大于某临界值 则大致 地可以认为它对于假定的正态分布不正常. 地可以认为它对于假定的正态分布不正常 通常,若一个被认为来自正态的观测值到其均值的距离 通常 若一个被认为来自正态的观测值到其均值的距离 大于3倍的标准差到均值的距离 倍的标准差到均值的距离,则可以认为它是一个离 大于 倍的标准差到均值的距离 则可以认为它是一个离 群点. 群点 x j − medi ( xi ) 若一个样本点 基于中位数的判断离群点的方法:若一个样本点 j满足 基于中位数的判断离群点的方法 若一个样本点x T2 = medi xi − medi ( xi ) 则认为它为离群点. 则认为它为离群点 中位数绝对离差(MAD): 中位数绝对离差
第十一章
ቤተ መጻሕፍቲ ባይዱ
稳健统计方法
在传统的统计中,对总体总是有很强的假定 若假定正确 在传统的统计中 对总体总是有很强的假定,若假定正确 对总体总是有很强的假定 若假定正确, 则一定会得到漂亮的结论,但是若假定不对 但是若假定不对,则可能产生错误 则一定会得到漂亮的结论 但是若假定不对 则可能产生错误 的结果.非参数统计则对总体没有多少假定 总能得到结论, 非参数统计则对总体没有多少假定,总能得到结论 的结果 非参数统计则对总体没有多少假定 总能得到结论 缺点是有时没有充分利用已给的信息. 缺点是有时没有充分利用已给的信息 稳健统计方法实际上是介乎两者之间,它利用一部分已 稳健统计方法实际上是介乎两者之间 它利用一部分已 知的总体性质,但是又避免了过于依赖假定而可能产生的后 知的总体性质 但是又避免了过于依赖假定而可能产生的后 果.
-1.7 -1.32 -1.06 -0.63 -0.6 -0.4 -0.37 -0.28 -0.23 -0.12 -0.04 0.06 0.07 0.22 0.25 0.32 0.61 0.61 0.86 0.86 1.22 1.28 146 0.44 0.49
样本中位数作为总体中心估计具有稳健性,前 面介绍的Theil回归和最小中位数回归就充分 Theil 利用了中位数的稳健性.
用样本中位数来代替样本均值对正态总体的位置中心u进 用样本中位数来代替样本均值对正态总体的位置中心 进 行估计,若数据 行估计 若数据 n
1 的确是u的很好的估计 的很好的估计,但是除了随机误差之 值 X = ∑ X i的确是 的很好的估计 但是除了随机误差之 n i =1
的确来自正态总体,则样本均 X 1 ,..., X n 的确来自正态总体 则样本均
medi xi − medi ( xi )
所有的数据都可能受到各种因素所造成的” 此时, 外,所有的数据都可能受到各种因素所造成的”污染”.此时 所有的数据都可能受到各种因素所造成的 污染” 此时 样本均值就极不可靠了. 样本均值就极不可靠了 下面是来自正态总体N(0,1)按升幂排列的 个数: 下面是来自正态总体 按升幂排列的25个数 按升幂排列的 个数 -1.7 -1.32 -1.06 -0.63 -0.6 -0.4 -0.37 -0.28 -0.23 -0.12 -0.04 0.06 0.07 0.22 0.25 0.32 0.61 0.61 0.86 0.86 1.22 1.28 1.46 0.44 0.49