充分降维理论和方法的拓展研究

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

充分降维理论和方法的拓展研究

【摘要】：这篇论文致力于对充分降维领域中一些理论的深入研究以及方法上的延伸。在充分降维领域中有两个重要的话题。第一个是估计中心(均值)降维空间的基方向。而经典降维方法基方向样本估计的大样本性质至今仍不明了。为了进一步了解这些常用降维方法特别是其方向估计的理论性质,在这篇论文中我们首先研究了这些方法的核矩阵以及基方向样本估计的二阶渐近性质。我们推导了四种常见的降维方法,包括切片逆回归(SlicedInverseRegression,SIR,Li,1991),切片平均方差估计(SlicedAverageVarianceEstimation,CookandWeisberg,1991),海赛主方向(PrincipalHessianDirection,Li,1992)和方向回归(DirectionalRegression,LiandWang,2007),它们样本估计的二阶渐近展开式。利用这些降维方法的二阶渐近展式,我们可以进一步考虑纠正其O(n-1)偏差以提高估计的精度。从已经得到的二阶渐近展式中,我们可以求出降维方法方向估计二阶偏差的显示表达式,继而可以很容易得到二阶偏差的相合样本估计。我们随后提出一种一般的降维方法的偏差纠正策略,其思想很简单：即是将某一种降维方法基方向的样本估计减去其二阶偏差的样本估计。并且我们证明了经过偏差纠正后,这些降维方法方向估计的偏差被缩小到O(n-2)。充分降维领域中的另一个重要的问题是决定中心(均值)降维子空间的结构维数。常用的选取结构维数的方法都有其局限性。序贯检验法依赖于检验的显著性水平。重抽样方法的运算量过大。Zhu,MiaoandPeng(2006)提出的BIC

准则虽然可以相合的估计结构维数,但如何基于数据选取最优的惩罚函数是一个难题。更重要的是,一般充分降维的过程分为两步,首先是决定维数,然后再选取相应的基方向。论文的第二部分基于对降维方法核矩阵样本特征值的压缩估计提出一种稀疏谱分解方法用以决定结构维数。该方法的主要思路是通过建立矩阵谱分解与最小二乘之间的联系,然后利用Zou(2006)所提出的自适应性最小绝对缩减和变量选择算子得到样本特征值的稀疏估计。和以往降维方法的两步估计不同,稀疏谱分解方法可以同时估计结构维数和中心(均值)降维子空间的基方向。同时我们还证明了稀疏谱分解方法具有Oracle性质。本文的第三部分是将非参数方法B样条用以估计降维方法SIR和SA VE 的核矩阵。和已有的切片方法以及核估计方法相比,B样条方法估计精度更高并且也同样计算简单。另外我们修正了Zhu,MiaoandPeng(2006)所提出的BIC准则。修正的目的是为了平衡BIC准则中的主项与惩罚项,使得其数量级大致相仿。这种修正的BIC 准则在估计结构维数方面的精度较之传统方法也有所提高。对于半参数模型的降维一般有两个出发点：一是找出模型中可能存在的变量的线性组合,二是选择模型中的重要变量。其中第一点就是充分降维的概念。而第二点是当前统计学界非常热门的话题：变量选择。本文的第四部分提出一种同时进行充分降维和变量选择的新方法。受到CandesandTao(2007)一文的启发,我们借鉴DantzigSelector对SIR方法进行了e1规范化。这种新方法的本质是在从SIR的谱分解形式中求解基方向与极小化基方向e1模长之间的一种折中方案。我们所提出

的这种新的充分降维与变量选择相结合的方法,在样本量n小于变量维数p的情形下仍然行之有效。当变量维数p固定时,我们得到了这种新方法的相合性和渐近正态性。当变量维数p和n以一定形式趋向于无穷时(需要指出的是pn的情形只是这种形式的特殊情形),我们得到了这种方法估计的误差上界。最后我们基于方向回归提出一种不基于模型假设的变量显著性检验。我们推导了在原假设下所提出的统计量的渐近分布。另外基于统计量的渐近性质,我们提出了两种非常简单的不基于模型假设的变量选择方法。这两种新方法不同于当前流行的变量选择方法比如最小绝对缩减和变量选择算子(LeastAbsoluteShrinkageandSelectionOperator,LASSO,Tibshirani,1996)的地方在于：不依赖模型假设而且也不是惩罚似然的思路。并且我们证明了在一定条件下这两种新的变量选择方法可以几乎以趋向于1的概率选对重要变量。通过大量的模拟实验我们比较了本文中提出的各方法和一些已有的方法,进而验证了这些新方法的有效性。另外我们还将这些方法用于分析各种实际数据,比如棒球击打手的年薪数据,贝类生物horsemussel数据,淋巴癌数据以及波士顿房价数据,说明了这些方法的应用价值所在。【关键词】：B样条偏差纠正谱分解二阶渐近性结构维数稀疏性充分降维变量选择

【学位授予单位】：华东师范大学

【学位级别】：博士

【学位授予年份】：2010

【分类号】：O211.67

【目录】：摘要11-13ABSTRACT(英文摘要)13-16主要符号对照表16-17第一章引言17-30§1.1高维数据17-18§1.2充分降维18-19§1.3估计中心降维子空间的经典方法19-22§1.4估计均值中心降维子空间的经典方法22-23§1.5结构维数的估计23-25§1.6充分降维领域的最新热点25-28§1.7本篇论文的框架28-30第二章经典充分降维方法的高阶渐近展开以及偏差纠正30-60§2.1引言30-31§2.2渐近展开的一般形式31-43§2.3降维方法的偏差纠正43-44§2.4模拟研究44-46§2.5本章结语46-49§2.6本章附录49-60第三章决定结构维数的稀疏谱分解方法60-75§3.1引言60-61§3.2稀疏谱分解估计方法61-64§3.3理论性质64-65§3.4模拟实验与实际应用65-67§3.5本章结语67-68§3.6本章附录68-75第四章充分降维方法的样条估计75-99§4.1引言75-76§4.2核矩阵(?)_(SIR)样条逼进的渐近性质76-78§4.3核矩阵(?)_(SA VE)样条逼近的收敛性78-79§4.4估计结构维数的修正BIC方法79-80§4.5模拟研究与实例说明80-83§4.6本章结语83-84§4.7本章附录84-99第五章小n大p情形下的充分降维与变量选择99-118§5.1本章引言99-100§5.2DantzigSelector型的逆回归标准化方法100-104§5.3理论性质104-106§5.4模拟实验与实际应用106-110§5.5本章结语110-111§5.6本章附录111-118第六章基于方向回归的变量显著性检验以及变量选择118-136§6.1引言118-119§6.2检验统计量的