响应变量随机缺失下广义线性模型的经验似然
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
响应变量随机缺失下广义线性模型的经验似然
闫莉;陈夏
【摘要】研究响应变量随机缺失下广义线性模型的经验似然推断。
首先构造未知参数的经验似然比函数,并证明其渐近分布为卡方分布;其次得到参数的若干估计量并得到了其渐近分布,研究结果可以直接构造参数的置信区间或置信域;最后利用模拟计算验证所提方法的优良性质。
%The application of the empirical likelihood method to a generalized linear model with missing responses at random is considered.Firstly,a class of empirical likelihood ratios for the unknown parameter are defined such that any ratio in the class is asymptotically chi-squared.Sec-ondly,a class of estimators for the parameter are constructed and the asymptotic distributions of the proposed estimators are obtained.Our results can be used directly to construct confidence in-tervals and regions for the parameters of interest.Finally,some simulations are conducted to il-lustrate the proposed methods.
【期刊名称】《陕西师范大学学报(自然科学版)》
【年(卷),期】2015(000)003
【总页数】5页(P1-5)
【关键词】经验似然;广义线性模型;缺失数据;置信域
【作者】闫莉;陈夏
【作者单位】陕西师范大学数学与信息科学学院,陕西西安 710119;陕西师范大学数学与信息科学学院,陕西西安 710119
【正文语种】中文
【中图分类】O212.1
广义线性模型(Generalized Linear Model, GLM)的理论是对线性模型经典理论的重要推广,自从1972年Nelder和Wedderburn引入此模型以来[1],它已应用
到许多领域。
近年来,在实际应用中,带有缺失数据的统计分析成为研究的热点问题。
基于此,本文讨论响应变量随机缺失下,GLM的经验似然推断。
经验似然方法作为一种非参数统计推断方法由Owen在1988年提出[2-3]。
经验
似然方法在构造置信域方面有许多突出的优点,例如,无需对渐近方差进行估计、置信域的形状由数据自行决定、域保持性、变换不变性、Bartlett纠偏性以及无需构造枢轴统计量等。
许多统计学者已将经验似然方法应用到处理各种数据的问题[4-13]。
在GLM的经验似然研究方面,1994年文献[14]利用拟似然函数方法讨
论了GLM的经验似然。
2006年文献[15]研究了一种推广的经验似然方法。
2011年,文献[16]考虑了带有缺失数据的GLM的经验似然推断。
然而,上述工作均是利用拟似然函数方法研究经验似然问题,即在假定均值函数和方差函数都能正确设定的情形下讨论。
利用拟似然方程方法,仅在均值函数有正确设定的情形下,2014年文献[17]讨论了固定设计和自适应设计情形下GLM的经验似然推断。
基
于完全数据方法,文献[18-19]讨论了缺失数据下GLM的拟似然估计和经验似然
推断问题。
考虑),i=1,2,…,n为n对响应变量和设计向量。
在固定设计情形下,指设计向量Xi
为非随机的p维向量或在给定Xi的条件下讨论,此时仍可以看作是非随机的[20]。
以下假定设计向量Xi为固定设计的p维向量。
令μ为连续可微的函数使得对所有
的(t)=dμ(t)/dt>0。
考虑以μ为联系函数的广义线性模型,即响应变量yi∈R和设计向量Xi∈Rp满足
,
其中β0为p维未知参数向量β的参数真值。
令β0)表示均值为0的独立误差序列。
考虑响应变量yi有缺失的情形,即在模型(1)中得到了不完全样本{(yi,
Xi,δi):1≤i≤n},其中Xi可以观测,若yi缺失,则δi=0,否则δi=1。
这里假定yi
是随机缺失(Missing at Random, MAR)的情形,即选择概率为
P(δi=1|yi,Xi)=P(δi=1|Xi)=π(Xi)。
在缺失数据的统计分析中,MAR是一种常见的假定且在很多实际应用中是合理的[21]。
当)完全观测时,文献[20,22-26]考虑了一类简单而重要的拟似然方程
,
把其解定义为β0的极大拟似然估计(Maximum Quasi-likelihood Estimate, MQLE)。
本文从拟似然方程(3)的观点出发,讨论了响应变量随机缺失下GLM的经验似然推断。
为了处理缺失数据,提出了未知参数的两种类型的经验对数似然比统计量,并证明了其渐近分布为卡方分布。
为了与正态逼近方法进行比较,同时构造了未知参数的两类估计量并得到了它们的渐近正态性。
该工作对已有成果有以下改进。
第一,利用了拟似然方程方法讨论缺失数据下GLM的经验似然问题,这不同于2011年文献[16]的工作。
文献[16]利用拟似然
函数方法,即在假定均值函数和方差函数都正确设定的情形下,讨论该问题。
这里,仅假定均值函数(1)有正确设定。
第二,文献[16]讨论了随机设计情形,如前文所述,这可以看作是本文固定设计的特例。
第三,虽然文献[19]利用拟似然方程方法讨论了缺失数据下GLM的经验似然,但该文仅利用完全数据方法处理缺失数据,
这在缺失率较高的情况下效率可能会降低。
本文利用加权和借补方法以提高经验似然推断的效率。
1.1 基于完全数据方法的经验似然
基于完全观测数据{(yi,Xi),δi=1,i=1,2,…,n},定义辅助随机向量。
因此,基于完全数据(Complete Case, CC)方法的参数β的经验对数似然比函数定义为
,。
另外,极大化{-ln,C(β)}可以得到基于CC方法的参数β0的极大经验似然估计CEL[4]。
基于CC方法的参数β0的MQLE n,C定义为方程
的解。
2013年,文献[19]得到了ln,C(β0)的分布为渐近卡方分布,并且估计量CEL和n,C有渐近等价性质。
1.2 基于加权方法的经验似然
如在节1.1提到的,可构造一个关于参数β的加权经验对数似然比函数
,。
这里。
如果选择概率π(·)未知,则上述经验似然比函数ln,W(β)不能直接用于统计推断。
此时,可用核光滑方法估计它,在一定的条件下,可以得到估计的加权经验对数似然比函数与此处定义的ln,W(β)有相同的渐近分布。
此处讨论选择概率π(·)已知的情形。
1.3 基于借补方法的经验似然
对完全数据和加权方法下的经验似然,其数据信息没有被完整地利用。
因为在构造
经验似然比的过程中,丢弃了不完全的信息,在有较多缺失数据的情形下,置信域的覆盖率会降低。
为解决此问题,在yi缺失时,利用广义线性回归借补的方法去
弥补yi的缺失,即用n,C)代替yi。
基于此,利用
作为yi的完全数据集。
设辅助随机向量β)),因此,基于借补方法的经验对数似然比函数定义为
,。
与(5)式类似,可得到基于借补方法的参数β0的一个MQLE n,I,它是估计方程
的根。
同时,也可以极大化n,I(β)},得到基于借补方法的β0的极大经验似然估计IEL。
1.4 主要结果
令,λn和分别表示的最小和最大特征根。
‖·‖表示Euclidean范数。
引进下述假定:(C1) 联系函数μ(t)二阶连续可导,选择概率函数π(x)有连续导数,且infxπ(x)>0。
‖Xi‖<∞和λn/n>0。
(C3) 存在δ>0,使得
和。
定理1 如果条件(C1)—(C3)成立,则,这里ln(β0)可取为ln,W(β0)或ln,I(β0),其
中代表依分布收敛,表示自由度为p的标准卡方分布。
由定理1,可以构造参数β0的置信水平为(1-α)的置信域CRα={β0:ln(β0)≤Cα},
其中Cα满足。
定理2 在条件(C1)—(C3)下,有
,
其中可取为n,I或IEL。
为了应用定理2去构造参数β0的置信域,需要给出Fn和Gn的估计,即
,。
本节给出几个模拟例子解释所提出的方法。
通过计算,发现所提方法在所构造置信区间的覆盖率和区间长度方面的优势。
为简单计,这里仅考虑参数为一维的情形。
在模型中,取β0=1,μ(t)=et,设计变量Xi来自于给定种子的均匀分布U(0,I),使其在模拟中保持不变,模型误差ei来自于均匀分布U(-1,1)。
对于不同的样本量
n=30、60、120基于以下三种选择概率分别产生2 000个随机样本:
(1) 如果样本满足|x-1|≤1,取π1(x)=P(δ=1|x)=0.8+0.2|x-1|, 否则取为0.95。
(2) 如果样本满足|x-1|≤4.5,取π2(x)=P(δ=1|x)=0.9-0.1|x-1|,否则取为0.1。
(3) 取π3(x)=0.6对所有x。
以上三种选择概率对应的平均缺失比率分别大约为0.07、0.22和0.4。
对每一组样本,分别利用基于完全数据的经验似然(CEL)、加权的经验似然(WEL)、基于借补值的经验似然(IEL)以及正态逼近IEL)和n,I))方法计算β0=1的置信水平
为95%的置信区间。
模拟结果见表1和表2。
由表1和表2,可得到如下结论:
(ⅰ) 在选择概率为π2(x)和π3(x)的情形下,IEL方法相比其他几种方法而言,有较短的区间长度和较高的覆盖率。
对选择概率π1(x),IEL有稍长的区间长度,但有
更高的覆盖率。
这表明当缺失率较大时,回归借补方法是必要的。
(ⅱ) CEL和WEL方法比NA方法有稍长的区间长度,但有较高的覆盖率。
两种正态逼近方法n,I)和IEL)在同种情形下有几乎相同的区间长度和覆盖率。
(ⅲ) 对每一种缺失率而言,当样本量增加时,置信区间长度会减少而经验覆盖率
会增加。
而且,缺失率会影响区间长度和覆盖率。
以下用c表示正常数,每次出现其值可不同。
为了证明主要结论,首先给出以下
引理。
引理1 在条件(C1)—(C3)下,有
,
,
‖ηi(β0)‖=op(n1/2),
其中ηi(β0)可取为ηi,W(β0)或ηi,I(β0)。
证明 (a) 首先证明引理1对ηi,W(β0)成立。
仅证明(9)式,(10)—(11)式的证明类似。
易知
,
,
,
其中‖λ‖=1。
由中心极限定理和Cramér-Wold定理知,为证明(9)式,只需证明对ε>0,有。
由条件(C2)和(C3)知,。
由条件(C1)和(C3)易知Sn≤cFn,故。
由Cauchy-Schwarz不等式、(13)和(14)式以及条件(C1)—(C3)可得(12)式。
因此
(9)式得证。
(b) 现证明该引理对ηi,I(β0)成立。
计算可得,
ηi,I (β0)=ηi,W(β0)+。
由大数定律知,。
由文献[19]的结果可知。
结合条件(C1)—(C3)可得。
由此,结合(a)的结果可知引理对ηi,I(β0)成立。
定理1的证明由引理1,利用Owen[2-3]提到的方法可以得到本定理的证明。
定理2的证明由条件(C1)—(C3)以及文献[14]的引理1,可得
,
注意到引理1的(9)式,定理得证。
在响应变量随机缺失的情形下,研究了广义线性模型中的经验似然推断问题。
仅在基于均值函数正确设定的情形下,利用加权和借补方法,提出了未知参数的两类经验对数似然比统计量和估计量,并得到了它们的渐近分布。
所得结果可直接应用于统计推断。
和现有方法相比,本文构造的统计量提高了经验似然在构造置信域方面的效率,尤其在缺失率较高的时候表现较为明显。
此方法利用一类简单而重要的拟似然方程进行研究,仍需进一步改进,以便能处理更加一般的拟似然方程。
*通信作者:陈夏,男,副教授。
E-mail:****************.cn
【相关文献】
[1] Nelder J A, Wedderburn R W M. Generalized linear models[J]. Journal of the Royal Statistical Society, Series B, 1972, 135(3):370-384.
[2] Owen A B. Empirical likelihood ratio confidence intervals for a single function[J]. Biometrika, 1988, 75(2): 237-249.
[3] Owen A B. Empirical likelihood ratio confidence regions[J]. The Annals of Statistics, 1990, 18(1): 90-120.
[4] Qin J, Lawless J. Empirical likelihood and general estimating equations[J]. The Annals of Statistics, 1994, 22(1):300-325.
[5] Chen S X, Qin Y S. Empirical likelihood confidence intervals for local linear smoothers[J]. Biometrika, 2000, 87(4):946-953.
[6] Wang Q H, Rao J N K. Empirical likelihood-based inference under imputation for
missing response data [J]. The Annals of Statistics, 2002, 30(3):896-924.
[7] Zhu L X, Xue L G. Empirical likelihood confidence regions in a partially linear single-index model[J]. Journal of the Royal Statistical Society, Series B, 2006, 68(3):549-570. [8] Xue L G, Zhu L X. Empirical likelihood for a varying coefficient model with longitudinal data[J]. Journal of the American Statistical Association, 2007, 102(478):642-654.
[9] Xue L G, Zhu L X. Empirical likelihood semiparametric regression analysis for longitudinal data[J]. Biometrika, 2007, 94(4):921-937.
[10] Qin J, Zhang B. Empirical-likelihood-based inference in missing response problems and its application in observational studies[J]. Journal of the Royal Statistical Society, Series B, 2007, 69(1):101-122.
[11] Wang D, Chen S X. Empirical likelihood for estimating equations with missing values[J]. The Annals of Statistics, 2009, 37(1):490-517.
[12] Xue Liugen, Xue Dong. Empirical likelihood for semiparametric regression model with missing response data[J].Journal of Multivariate Analysis, 2011, 102(4):723-740.
[13] Yan Li, Chen Xia. Empirical likelihood for partly linear models with errors in all variables[J]. Journal of Multivariate Analysis, 2014, 130: 275-288.
[14] Kolaczyk E D. Empirical likelihood for generalized linear models[J]. Statistica Sinica, 1994, 4:199-218.
[15] Chen S X, Cui H J. An extended empirical likelihood for generalized linear models[J]. Statistica Sinica, 2006, 13:69-81.
[16] Xue Dong, Xue Liugen, Cheng Weihu. Empirical likelihood for generalized linear models with missing responses[J].Journal of Stastical Planning and Inference,2011,
141(6):2007-2020.
[17] Yan Li, Chen Xia. Empirical likelihood for generalized linear models with fixed and adaptive designs[J]. Statistics, 2014, DOI: 10.1080/02331888.2014.929135.
[18] 闫莉,陈夏.缺失数据下广义线性回归拟似然估计的强相合性[J].陕西师范大学学报:自然科学版, 2010, 38(2):15-17.
[19] 闫莉,陈夏.缺失数据下广义线性模型的经验似然推断[J]. 统计与信息论坛, 2013, 28(2): 14-17.
[20] Chen K, Hu Y, Ying Z. Strong consistency of maximum quasi-likelihood estimators in generalized linear models with fixed and adaptive designs[J]. The Annals of Statistics, 1999, 27(4):1155-1163.
[21] Little R J A, Rubin D B. Statistical analysis with missing data[M].New York: John Wiley & Sons,2002.
[22] 高启兵, 吴耀华.广义线性回归拟似然估计的渐近正态性[J].系统科学与数学, 2005,
25(6):738-745.
[23] Chen Xia, Chen Xiru. Adaptive quasi-likelihood estimator in generalized linear models[J]. Science China Mathematics, 2005, 48(6):829-846.
[24] Yin Changming, Zhao Lincheng. Asymptotic normality and strong consistency of maximum quasi-likelihood in generalized linear models[J].Science China Mathematics, 2006, 49(2):145-157.
[25] Zhang Sanguo, Liao Yuan. On some problems of weak consistency of quasi-maximum likelihood estimates ingeneralized linear models[J]. Science China Mathematics, 2008,
51(7):1287-1296.
[26] Zhu Chunhua, Gao Qibing. Asymptotic properties in generalized linear models with natural link function and adaptive designs[J]. Advances in Mathematics, 2013, 42(1):121-127.。