变系数模型的估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
太原理工大学硕士研究生学位论文
ESTIMATIONS ON VARYING COEFFICIENT MODELS
ABSTRACT
Hastie and Tibshirani (1993)[1] proposed the varying coefficient model,
which is defined as
Zhang (2007)[2] proposed varying-coefficient model with different smooth-
ing variables:
p qp
Y=
aαα (Xα)Zα(α ) + σ(X, Z) ,
(2)
α=1 α =1
where (Y, XT , ZT ) is random vector, Y ∈ R, X = (X1, · · · , Xp)T ∈ Rp, Z =
- IV -
太原理工大学硕士研究生学位论文
第一章究了两个随机变量Y 与X之间的关系,称f (x) = E(Y | X = x) 为
回归函数. 当回归函数的形式已知, 而其中仅仅存在一些未知参数时, 称为参数统计
结构. 而参数统计结构总是需要一些模型假设, 其中线性模型假设是最简单方便的一
但它也存在一些缺点: 它也会导致较大的偏差; 而且在处理实际问题时不是很灵活, 因
为多项式函数要求在每一点处有各阶导数; 个别观测值可能对整个函数曲线产生大的
影响. 由于在实际应用中, 回归函数的形式常常是未知的,此时常常使用非参数回归模
型(nonparametric regression model). 所谓非参数回归是不对未知函数f (x)的形式做任
维,包括投影追踪法(projection pursuit)[12]、SIR法(sliced inverse regression)[13]、
单指标模型法(single index model)[14]等.模型为如下基本形式:
Y = f (XT β1, · · · , XT βq, ),
(1.1)
-1-
参看文献[3-11].当协变量的维数较高时,上述非参数的估计方法的估计效果就会较弱,称
之为“维数祸根”. 这是因为非参数函数估计方法本质上讲都是局部估计或局部光
滑,要想使f (x)在X点得到比较充分的估计,必须使得X的邻域内包含有足够多的数据.但
当X 为 高 维 时,这 个 条 件 不 易 满 足,为 了 克 服 “ 维 数 祸 根 ”,人 们 提 出 了 很 多 方 法 来 降
been very important tool to explore the dynamic pattern in many scientific
areas, such as economics, finance, politics, medical science, ecology and so on.
p
Y = αi(U )Xi + σ(U, X) ,
(1)
i=1
where (Y, U, X1, X2, ..., Xp)T is the random vector, X = (X1, · · · , Xp)T ,
is a random error with E( |U, X) = 0, V ar( |U, X) = 1. The varying co-
In the paper, the varying-coefficient regression models with different smoothing variables in founded model, estimates and asymptotic normality of the estimates are discussed. The first chapter gives a selective overview on the major methodological that is needed and theoretical developments on the varying coefficient models. In the second chapter,first,the model (2) is founded from examples, moreover, the averaged estimation and averaged efficient estimator are obtained. The procedure as follows: the averaged estimates of the unknown coefficient functions are given by local linear technique and averaged method. The averaged estimates have big variance, so they should be improved. The averaged efficient estimates of the coefficient functions are proposed by a one-step back-fitting procedure on the averaged estimates. Second, asymptotic normality of the averaged efficient estimates are given. Then the simulated example shows that the procedure is effective. In the third chapter, the integrated estimates and integrated efficient estimates are obtained in model (2). The integrated estimates of the unknown coefficient functions are given by local linear technique and integrated method. The integrated estimates have big variance as the averaged estimates, so, similarly, the integrated efficient estimates of the coefficient functions are proposed by a one-step back-fitting procedure on the integrated estimates and thus improve the estimation effective. The integrated efficient estimates as the averaged efficient estimates share the same asymptotic normalities as the local linear estimators for the functional-coefficient models with a single smoothing variable in different functions. Then the simulated example shows that the procedure is effective.
太原理工大学硕士研究生学位论文
其 中Y 为 响 应 变 量,X = (X1, · · · , Xp)T 为 随 机 变 量, 为 随 机 误 差,q为 远 远 小 于p的 整 数.但是,模型(1.1)仍然存在局限性,当q较大时仍然存在“维数祸根”.事实上, 当样本 容量不太大且q ≥ 2时,模型(1.1)并不是非常实用的.另一种克服“维数祸根”的方法 称为函数近似, 即放宽对传统参数模型的条件,探索新的结构,如可加模型(additive model)[15,16]、低维交互模型(low-dimensional interaction model)[17,18,19]、部分线 性模型(partially linear model)[20,21]、变系数模型(varying coefficient model)[1,22,23,24]、 混合模型[25,26,27,28].在以上的半参数回归模型中,变系数模型获得了广泛的采用, 成功 地应用于多维非参数回归,广义线性模型,非线性时间序列模型,纵向数据,函数数据,生存 数据,金融数据和经济数据的分析中.
(ZT1 , · · · , ZTp )T ∈ Rq, Zα = (Zα(1), · · · , Zα(qα))T , q = q1 + · · · + qp, All aαα (·)’s
are unknown measurable functions from R to R; σ(·, ·) is a measurable
function from Rp+q to R, is independent of (X, Z) and satisfied with
E( ) = 0, V ar( ) = 1. If p = 1, then the model(2) becomes the model(1).
- III -
太原理工大学硕士研究生学位论文
种, 尽管它们的性质是非常好建立的, 但线性模型却是不大合乎实际的. 而且, 线性模
型产生的数据的不具体性将会导致非常大的偏差. 为了更好地应用于实际, 学者们又
提出了许多其他的参数模型, 然而, 它们各自都有一定的局限性. 例如, 一个常用的方
法就是增加参数个数, 则模型变为多项式回归模型. 虽然多项式回归模型被广泛应用,
1.2 变系数模型的实际意义
变系数模型不是由纯数学的发展需要产生的,而是产生于实际需要.在许多需要统计 的科学领域中,鉴于经验, 人们常用一些传统的参数模型,这些模型在一定意义上是合理 的.但是,人们大都忽略了数据中的动态特征,尽管有时候对数据的动态特征的探索有些牵 强.为了探索动态数据特征使得模型能够更好地拟合数据,我们需要对传统的参数模型重 新考虑了.当然,完全摒弃传统参数模型也是不明智的.如果让常参数具有一定特征,即模 型为变系数模型时是比较合理的.例如,在探索空气污染对呼吸疾病的影响时,不仅要考虑 空气污染物对呼吸疾病的影响,同时, 也要考虑气候指标及时间等因素对呼吸疾病的影 响,以每日因呼吸疾病的住院人数作为衡量这一影响大小的指标, 由专业知识可知空气污 染物与气候之间有一定的交互作用,因呼吸疾病住院的人数也与时间有关系,这样,就需要 用到变系数模型.再如,为了研究某一峡谷周出水量,不仅要考虑本周的入水量,还要考虑 出水量与入水量之间的交互作用.因此,建议使用变系数模型.这两个例子将在后面详细讨 论.
efficient models are natural extensions of classical linear regression models in which parametric are substituted by the function of covariate. Thanks
to their good flexibility and interpretability, the varying coefficient models are becoming more and more popular in data analysis. Now, they have
何具体的假定,而是假定f (x)具有某种属性, 如f (x)为一个光滑函数等.因此,它的优点就
是稳健性,永远不会错误地估计f (x). 然而,它却不能很好地加入原先的信息,这会使得
未知函数的估计产生大的方差.为了估计f (·), 人们提出了很多估计方法,如局部估计方
法、B样条估计方法、正交级数方法(包含Fourier方法、小波方法、惩罚样条等),可以
KEY WORDS: Varying coefficient models; Local linear method; Averaged estimate; Integrated estimate; One-step back-fitting procedure; Efficient estimate; Asymptotic normality
ESTIMATIONS ON VARYING COEFFICIENT MODELS
ABSTRACT
Hastie and Tibshirani (1993)[1] proposed the varying coefficient model,
which is defined as
Zhang (2007)[2] proposed varying-coefficient model with different smooth-
ing variables:
p qp
Y=
aαα (Xα)Zα(α ) + σ(X, Z) ,
(2)
α=1 α =1
where (Y, XT , ZT ) is random vector, Y ∈ R, X = (X1, · · · , Xp)T ∈ Rp, Z =
- IV -
太原理工大学硕士研究生学位论文
第一章究了两个随机变量Y 与X之间的关系,称f (x) = E(Y | X = x) 为
回归函数. 当回归函数的形式已知, 而其中仅仅存在一些未知参数时, 称为参数统计
结构. 而参数统计结构总是需要一些模型假设, 其中线性模型假设是最简单方便的一
但它也存在一些缺点: 它也会导致较大的偏差; 而且在处理实际问题时不是很灵活, 因
为多项式函数要求在每一点处有各阶导数; 个别观测值可能对整个函数曲线产生大的
影响. 由于在实际应用中, 回归函数的形式常常是未知的,此时常常使用非参数回归模
型(nonparametric regression model). 所谓非参数回归是不对未知函数f (x)的形式做任
维,包括投影追踪法(projection pursuit)[12]、SIR法(sliced inverse regression)[13]、
单指标模型法(single index model)[14]等.模型为如下基本形式:
Y = f (XT β1, · · · , XT βq, ),
(1.1)
-1-
参看文献[3-11].当协变量的维数较高时,上述非参数的估计方法的估计效果就会较弱,称
之为“维数祸根”. 这是因为非参数函数估计方法本质上讲都是局部估计或局部光
滑,要想使f (x)在X点得到比较充分的估计,必须使得X的邻域内包含有足够多的数据.但
当X 为 高 维 时,这 个 条 件 不 易 满 足,为 了 克 服 “ 维 数 祸 根 ”,人 们 提 出 了 很 多 方 法 来 降
been very important tool to explore the dynamic pattern in many scientific
areas, such as economics, finance, politics, medical science, ecology and so on.
p
Y = αi(U )Xi + σ(U, X) ,
(1)
i=1
where (Y, U, X1, X2, ..., Xp)T is the random vector, X = (X1, · · · , Xp)T ,
is a random error with E( |U, X) = 0, V ar( |U, X) = 1. The varying co-
In the paper, the varying-coefficient regression models with different smoothing variables in founded model, estimates and asymptotic normality of the estimates are discussed. The first chapter gives a selective overview on the major methodological that is needed and theoretical developments on the varying coefficient models. In the second chapter,first,the model (2) is founded from examples, moreover, the averaged estimation and averaged efficient estimator are obtained. The procedure as follows: the averaged estimates of the unknown coefficient functions are given by local linear technique and averaged method. The averaged estimates have big variance, so they should be improved. The averaged efficient estimates of the coefficient functions are proposed by a one-step back-fitting procedure on the averaged estimates. Second, asymptotic normality of the averaged efficient estimates are given. Then the simulated example shows that the procedure is effective. In the third chapter, the integrated estimates and integrated efficient estimates are obtained in model (2). The integrated estimates of the unknown coefficient functions are given by local linear technique and integrated method. The integrated estimates have big variance as the averaged estimates, so, similarly, the integrated efficient estimates of the coefficient functions are proposed by a one-step back-fitting procedure on the integrated estimates and thus improve the estimation effective. The integrated efficient estimates as the averaged efficient estimates share the same asymptotic normalities as the local linear estimators for the functional-coefficient models with a single smoothing variable in different functions. Then the simulated example shows that the procedure is effective.
太原理工大学硕士研究生学位论文
其 中Y 为 响 应 变 量,X = (X1, · · · , Xp)T 为 随 机 变 量, 为 随 机 误 差,q为 远 远 小 于p的 整 数.但是,模型(1.1)仍然存在局限性,当q较大时仍然存在“维数祸根”.事实上, 当样本 容量不太大且q ≥ 2时,模型(1.1)并不是非常实用的.另一种克服“维数祸根”的方法 称为函数近似, 即放宽对传统参数模型的条件,探索新的结构,如可加模型(additive model)[15,16]、低维交互模型(low-dimensional interaction model)[17,18,19]、部分线 性模型(partially linear model)[20,21]、变系数模型(varying coefficient model)[1,22,23,24]、 混合模型[25,26,27,28].在以上的半参数回归模型中,变系数模型获得了广泛的采用, 成功 地应用于多维非参数回归,广义线性模型,非线性时间序列模型,纵向数据,函数数据,生存 数据,金融数据和经济数据的分析中.
(ZT1 , · · · , ZTp )T ∈ Rq, Zα = (Zα(1), · · · , Zα(qα))T , q = q1 + · · · + qp, All aαα (·)’s
are unknown measurable functions from R to R; σ(·, ·) is a measurable
function from Rp+q to R, is independent of (X, Z) and satisfied with
E( ) = 0, V ar( ) = 1. If p = 1, then the model(2) becomes the model(1).
- III -
太原理工大学硕士研究生学位论文
种, 尽管它们的性质是非常好建立的, 但线性模型却是不大合乎实际的. 而且, 线性模
型产生的数据的不具体性将会导致非常大的偏差. 为了更好地应用于实际, 学者们又
提出了许多其他的参数模型, 然而, 它们各自都有一定的局限性. 例如, 一个常用的方
法就是增加参数个数, 则模型变为多项式回归模型. 虽然多项式回归模型被广泛应用,
1.2 变系数模型的实际意义
变系数模型不是由纯数学的发展需要产生的,而是产生于实际需要.在许多需要统计 的科学领域中,鉴于经验, 人们常用一些传统的参数模型,这些模型在一定意义上是合理 的.但是,人们大都忽略了数据中的动态特征,尽管有时候对数据的动态特征的探索有些牵 强.为了探索动态数据特征使得模型能够更好地拟合数据,我们需要对传统的参数模型重 新考虑了.当然,完全摒弃传统参数模型也是不明智的.如果让常参数具有一定特征,即模 型为变系数模型时是比较合理的.例如,在探索空气污染对呼吸疾病的影响时,不仅要考虑 空气污染物对呼吸疾病的影响,同时, 也要考虑气候指标及时间等因素对呼吸疾病的影 响,以每日因呼吸疾病的住院人数作为衡量这一影响大小的指标, 由专业知识可知空气污 染物与气候之间有一定的交互作用,因呼吸疾病住院的人数也与时间有关系,这样,就需要 用到变系数模型.再如,为了研究某一峡谷周出水量,不仅要考虑本周的入水量,还要考虑 出水量与入水量之间的交互作用.因此,建议使用变系数模型.这两个例子将在后面详细讨 论.
efficient models are natural extensions of classical linear regression models in which parametric are substituted by the function of covariate. Thanks
to their good flexibility and interpretability, the varying coefficient models are becoming more and more popular in data analysis. Now, they have
何具体的假定,而是假定f (x)具有某种属性, 如f (x)为一个光滑函数等.因此,它的优点就
是稳健性,永远不会错误地估计f (x). 然而,它却不能很好地加入原先的信息,这会使得
未知函数的估计产生大的方差.为了估计f (·), 人们提出了很多估计方法,如局部估计方
法、B样条估计方法、正交级数方法(包含Fourier方法、小波方法、惩罚样条等),可以
KEY WORDS: Varying coefficient models; Local linear method; Averaged estimate; Integrated estimate; One-step back-fitting procedure; Efficient estimate; Asymptotic normality