纵向数据研究进展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
纵向数据半参数建模研究计划
一、研究回顾
纵向数据是指对一组个体按时间顺序或空间顺序追踪重复测得的数据,对每一个体在不同时间或不同实验条件下多次测量,所得的数据兼有时间序列和截面数据的特点。这种数据的特点是所研究的反应变量的观测值随时间变化,相关的协变量也随时间变化有一系列的观察,具有上述特点的数据在医学、生物学、社会学、经济学、心理学等领域极为常见。由于在纵向数据中对同一个个体的多次重复观察之间往往具有相关性,如何处理这种个体内的相关性便成为纵向分析中不可回避的问题。此外,在纵向数据分析中还要较好地研究协变量对反应变量的影响,同一个体重复测量值内部的相关结构的信息在统计分析中应得到充分的利用。
作为对重复测量数据的相关性的刻画,早期主要采用参数的方法。比如误差项为时间序列的多元线性模型、生长曲线模型等,由于随机误差项的结构很复杂,经常会不可避免的遇到维数灾祸。以后又发展到非线性形式、离散的泛函形式的纵向数据模型,形成了比较成熟的非参数模型和半参数模型。由于在纵向数据中经常遇到缺失或测量误差,这些都会增加统计分析的难度。
纵向数据的参数回归分析方法是早期研究的主要方法。一般线性模型往往假定误差项为多元正态分布,零均值向量,协方差阵为分块对角阵。进一步按协方差阵可细分均匀相关,指数相关,一步相关等。可用极大似然法或加权最小二乘法以及广义估计方程的方法进行估计或统计推断。广义线性模型可将连续型反应变量的研究推广至离散型,如Logistic边缘模型、泊松回归模型等,还可解决反应变量是分类数据的情形。混合效应模型是研究纵向数据的强有力的工具。对于具有不同类的个体(heterogeneous individuals)的研究,引入随机效应来反映个体的异质性,从而反映同一个体的观测的内相关性,这是纵向数据研究的十分重要的方法。
参数模型直观且易于进行统计分析,当假设的模型成立时,其推断的精度也较高。然而如果假设的模型与实际不符,参数模型就会带来很大偏差。因此当实际模型不确知时,非参数模型不失为一个更好的选择。纵向数据分析中非参数模型的研宄也有很多,如针对纵向数据下的一元非参数模型,Lin和
Carrol(2000)[1]提出了核广义估计方程方法,并证明了数据不存在组内相关性时估计效果最好;Wang[2]提出了边际核方法,并证明了在数据的相关关系已知时,这个方法要比核广义估计方程法更有效;在数据的相关关系己知的情况下,Linton[3]等提出了两阶段估计法,即先通过线性变换将纵向数据转化为剖面数据,然后再对模型进行估计;基于Cholesky分解和局部多项式估计,Yao和Li[4]同时给出了非参数函数和协方差矩阵参数的估计。对于纵向数据下的部分线性模型,Lin和Carrol[5]利用核广义估计方程方法,研究了模型线性部分系数的估计问题;Fan和Li[6]首先用局部多项式方法,给出了非参数函数的估计,然后分别用差分估计方法和轮廓最小二乘方法研究了线性部分系数的估计;He[7]等则结合B样条逼近方法,研究了模型的稳健估计问题;Wang等[8]对模型的有效估计问题进行了研究;Xue和Zhu[9]用经验似然方法研究了模型参数的区间估计问题。对于纵向数据下的变系数模型,Wu[10]等通过最小化局部最小二乘准则得到了变系数的估计,并证明了所得估计的渐近正态性;Hoover[11]等分别基于光滑样条方法及局部多项式估计方法研究了模型参数的估计;Fan和Zhang[12]针对各函数系数具有不同光滑度的情况,提出了一个两阶段估计过程;Xue和Zhu[13]利用经验似然方法,研宄了模型参数的区间估计问题等。
半参数回归模型综合了参数与非参数回归模型的许多优点,既充分利用了数据中的信息,又把一些信息不充分的变量纳入模型,换句话说,就是既可以把握大趋势走向,适于外延预测(参数回归的优点),又可以作局部调整,使数据较精确地拟合(非参数回归的优势)。因而它可以概括和描述众多实际问题,较参数和非参数回归模型更接近真实,更能充分利用数据中提
供的信息,是一类具有普遍性和代表性的统计模型。而纵向数据半参数回归模型就是将二者融合在一起,所以能够更好的分析实际问题。纵向数据的半参数回归模型研究的热点主要集中在:参数分量和非参数分量的估计的大样本性质,回归参数估计方法的建立,回归参数估计算法的建立,收敛性问题的讨论,回归模型诊断等问题。对于半参数回归模型提出了一些估计方法,大致可分为三大类:第一类是局部光滑方法,如核估计,局部多项式估计等,其核心思想是赋予距离观测点近的样本较高的权重,依此来估计观测点处的回归函数值;第二类是样条逼近方法,如光滑样条,B样条,惩罚样条等;第三类是正交级数逼近,如Fourier级数,小波方法等。即首先将回归函数展开为级数形式,用样本来估计相应的系数。
参考文献:
[1] Lin, X. and Carroll, R.J. (2000). Nonparametric function estimation for clustered data when the predictor is measured without/with error.J.Am.Statist.Ass.,95,520-534.
[2] Wang, N.(2003). Marginal nonparametric kernel regression accounting for within-subject correlation. Biometrika,90, 43-52.
[3] Linton, O.B., Mammen. E.. Lin, X. and Carroll, R.J. (2003) Accounting for correlation in marginal longitudinal nonparametric regression. 2nd Seattle Symp. Biostatistics.
[4] Yao, W.X. and Li R.Z. (2013). New local estimation procedure for a non-parametric regression function for longitudinal data. Journal of the Royal Statistical Society.Series B, 75,Part 1,123-138.
[5]Lin. X. and Carrol, R.J. (2001). Semiparametric regression for clustered data using generalized estimating equations. Journal of the American Statistical Association,96,1945-1056.
[6] Fan, J. and Li, R.Z. (2004). New estimation and model selection procedures for semiparametric modeling in longitudinal data analysis. Journal of the American Statistical Association, 99, 710-723.
[7] He, X.M., Zhu, Z.Y. and Fung, W.K. (2002). Estimation in a semiparametric model for longitudinal data with unspecified dependence structure. Biometrika, 89,579-590.
[8] Wang, N., Carroll, R.J. and Lin. X.H. (2005). Efficient semiparametric marginal estimation for longitudinal/clustered data. Journal of the American