区间删失数据下参数估计的比较

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

区间删失数据下参数估计的比较
杨军
【摘要】This paper discusses is the parameter estimation of interval censored data when the life distribution is exponential distribution.Mainly discusses the estimates for type Ⅰ censored cases data,and calculated display solution.%主要讨论了寿命分布为指数分布时区间删失数据的参数估计。

在I型删失情况下得到了参数的Bayes估计和矩估计。

进而,利用数值模拟的方法比较了Bayes估计和矩估计的优劣。

【期刊名称】《江西科学》
【年(卷),期】2012(030)001
【总页数】3页(P18-20)
【关键词】I型区间删失;指数分布;Bayes估计;矩估计
【作者】杨军
【作者单位】江西师范大学数学与信息学院,江西南昌330022
【正文语种】中文
【中图分类】O211.9
在生存分析和可靠性研究中,常常因为客观条件的限制无法得到失效时间的准确观测值,只能观测到它所处的区间,在统计学中一般将这类数据称为区间删失数据(Interval censored data),简称区间数据。

Huang与 Wellner[1],郑祖康和丁邦俊[2]就区间数据问题的出现和统计研究有一个比较全面地介绍。

为了统计
处理上的方便,常常将区间数据分为以下2类(用Y表示目标随机变量):
(1)区间截断情况1(“Case 1”Interval censoring)。

在试验中,只观测到了(V,δ),V表示“检查”或“观测”的时间,δ=I(Y≤V),其中I(·)是示性函数,这类模型被简记为类型Ⅰ。

(2)区间截断情况2(“Case 2”Interval censoring)。

在实验中只知道Y相对于某个区间(U,V)的位置,可能在区间内,也可能在区间的左边或在区间的右边,因
此观测值包括(U,V,δ1,δ2)=(U,V,I(Y≤U),I(U<Y<V))。

这类模型被简记
为类型Ⅱ。

目前已有大量有关区间数据的文献。

这些研究中,较为典型的一类是采用非参数极大似然(NPMLE)的思想来解决区间数据的分布函数估计问题和回归模型中的问题,得到了一些有价值的理论结果。

Turbull[3]得到了区间数据的自相合方程,这为分布函数的非参数极大似然估计的计算提供了一种EM算法。

Groeneboom 与Wellner[4]运用了ICM(Iterative Convex Minorant)算法来求解似然方程,并且证实了当样本很大时,由ICM算法得到的估计的收敛速度远大于EM算法所得
到估计的收敛速度。

在区间数据的回归分析中,加速失效时间回归模型(Accelerated failure time regression model)的研究得到了广泛的重视。

回归分析问题最终还是转化成了对似然函数求极值的问题。

利用极大似然方法进行区间数据的研究存在着一些不足,求解非参数似然方程的过程非常繁琐,常常只能通过迭代计算的方法得到似然方程的近似解,实际操作难度较大。

邓文丽[5]使用无偏转换的思想对该问题做了处理。

本文主要解决区间删失数据下指数分布的参数估计问题,使用Bayes估计的方法
以及矩估计的方法在指数分布下进行参数估计,并利用随机模拟的方法比较这2
个估计的优劣。

假设随机变量Y服从参数为λ(λ>0)的指数分布,记为Y~Exp(λ),其分布函数和
密度函数分别为:
由于某些原因,在实际中不能观测到Y的完全样本,而只能观测到样本值落入某
个区间内。

对指数分布的总体Y,假设观测到n个区间Ⅰ型情况下的样本观测值。

用vi表示第i个观测时间。

实际上能得到的样本为(vi,δi),i=1,2,…,其中分
别是V和Y的独立同分布样本。

因此,似然函数可以写为:其中δi=1表示在检测
或观测时间之内寿命终止,假设总共有N个样本观测时已经寿命终止,适当调整
顺序可以把在这N个样本放到最前面,即δ1=δ2=…δn=1,δN+1=…δn=0。

选择λ的先验分布为:
那么λ的后验分布为:
在平方损失下为λ的后验期望值:
由Bayes估计的性质得到下面定理。

定理:在给定的Bayes的决策问题中,对给定的先验分布Ga(λ),λ的 Bayes估计
是唯一的,则它也是容许的。

矩估计被认为是最古老的求估计的方法之一,它是由K Pearson在20世纪初提出的。

本节采用矩估计的方法进行参数估计。

V是一个与Y独立的随机变量,有已知的正密度函数g(v)= λ1e-λ1v,v≥0,其中λ1是已知的正数。

那么很容易得到λ的一个矩估计:
本文使用MATLAB编程进行模拟计算。

(1)在指数分布λ下随机生成一组一行n列的数V(n是可变化)以及一组10 000行
n列的数Y;
(2)用V和Y中每一行一一比较,得出N(N表示V中数据比Y中数据大的个数),把V≥Y的N个数交换顺序放到V的前面;
(3)把得到的N和V代入到的表达式中,分别计算出了10 000个
(4)计算出Bayes估计的均方误差AMSE,其中AMSE1表示先验分布取α=0.5,
β=5时的均方误差,AMSE2表示先验分布取α=2,β=0.55时的均方误差,表1、表2显示的是均方误差的平均值;
(5)变化λ和样本n的值,重复前面步骤得出结果分别记录如表1、表2。

(1)在指数分布λ下随机生成一组一行n列的数V(n是可变化)以及一组10 000行n列的数Y;
(2)用V和Y中每一行一一比较,得出一个矩阵N,计算出每一个δ;
(3)分别在给定λ1=1和λ1=0.5的情况下计算出矩估计的均方误差MSE,表1、表2中显示的是均方误差的平均值。

从模拟计算结果中可以看出:(1)随着样本容量n的增大,均方误差均逐渐减小;(2)
比较ASME1与AMSE2可以得到,选取不同的先验分布对结果有一定的影响;(3)V 分布和Y分布差异大小对结果也是有影响的;(4)使用Bayes估计的方法要比用矩估计方法得到的均方误差小,主要是Bayes估计使用了先验信息,显然在计算精度
上要优于矩估计。

【相关文献】
[1]Huang J,Wellner J A.Interval censored survival data:a review of recent progress,Proceeding of the First Seattle Symposium in Biostatistics:Survival Analysis[J].Springer,1997,11(3):123-170.
[2]郑祖康,丁邦俊.关于区间数据的分布函数估计问题[J].应用概率统计,2004,
20(2):119-125.
[3]Turnbull B W.The empirical distribution function with arbitrarily grouped,censored and truncated data[J].J.Roy.Statist.Soc.,1976,B38:290-295.
[4]Groeneboom J P,Wellner J A.Information bounds and nonparametric maximum likelihoodestimation[J].DMV Seminar Band 19,Birkha¨user,Basel,1992,25(2):117-119.
[5]邓文丽.区间数据若干问题的研究[D].上海:复旦大学,2004:1-8.
[6]Sun Jian-guo.The Statistical Analysis of Interval-censored Failure Time Data [M].Statistics for Biology and Health.Springer,2006:10-13.
[7]邓文丽,付婷.区间数据的均值估计[J].Chinese Journal of Applied Probabilityand Statistics,2010,26:419-421.
[8]茆诗松,王静龙,濮晓龙.高等数理统计(第2版)[M].北京:高等教育出版社,2004:307-382.
[9]王晓芳.区间删失情况下参数估计的新方法[D].上海:华东师范大学,2007.
[10]Huang Jian,Wellner Jon A.Interval Censored Survival Data:A Review of RecentProgress[M].Springer,1997.
[11]Huang Jian,Wellner Jon A.Asymptotic Normality of the NPMLE of Linear functionals for interval censored data,case 1[J].Statistica Neerlandica,1995,
49(2):153-163.
[12]邓文丽,刘显慧.区间数据参数估计的矩方法[J].统计与决策,2007,(23):26-28.。

相关文档
最新文档