投影寻踪模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
投影寻踪方法及应用
内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。最后结合上市公司的股价进行实证分析,并给出结论和建议。
关键词:投影寻踪投影寻踪聚类模型遗传算法
一、简介
(一)产生背景
随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。多元分析方法是解决高维数据这类问题的有力工具。但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。对于核估计,近邻估计之类的非参数法很难使用。第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。
(二)发展简史
PP最早由Kruskal于70年初建议和试验。他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。1979年后,Friedman 等人相继提出了PP回归、PP分类和PP密度估计。在这以后Huber等人积极探索了PP的理论。1981年Donoho提出了用Shannan嫡作投影指标比wiggins用标准化峰度更好的方法,接着他又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。Diaeonis、Friedman和Jones等还讨论了与PP有关的其他理论问题。上述工作和结果在1985年Huber 的综述论文中作了概括和总结。
我国学者成平和吴健福于1985年证明了PP密度估计的一个收敛性问题,并于1987年给出PP经验分布的极限分布。陈忠琏和李国英等于1986年用PP方法给出了散布阵和主成分的一类稳健估计。成平和李国英于1986年还对多元位置和散布的PP型估计性质进行了讨论叫。陈家弊于1986年证明了密度PP估计的一个极限定理。宋立新和成平于1996年就PP回归逼近的均方收敛性,回答了Huber1985年的猜想。这些都是很好的工作。在PP的应用研究方面,从1985年起,郑祖国、杨力行等人通过几年的潜心研究和探索,成功地完成了投影寻踪回归(PPR)和投影寻踪时序(PPTS)软件包的程序设计,并对大量实例进行了验算。
二、PP及其分类
投影寻踪是用来分析和处理高维数据,尤其是来自非正态总体的高维数据的一类统计方法。其基本思想是:利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。
它的一般方案是:
(l)选定一个分布模型作为标准(一般是正态分布),认为它是最不感兴趣的结构;
(2)将数据投影到低维空间上,找出数据与标准模型相差最大的投影,这表明在投影中含有标准模型没能反映出来的结构;
(3)将上述投影中包含的结构从原数据中剔除,得到改进了的新数据;
(4)对新数据重复步骤(2)(3),直到数据与标准模型在任何投影空间都没有明显差别为止。
PP方法的主要特点是:
(l)PP方法能够在很大程度上减少维数祸根的影响,这是因为它对数据的分析是在低维子空间上进行的,对1-3维的投影空间来说,高维空间中稀疏的数据点就足够密了,足以发现数据在投影空间中结构特征;
(2)PP方法可以排除与数据结构和特征无关,或关系很小的变量的干扰;
(3)PP方法为使用一维统计方法解决高维问题开辟了途径,因为PP方法可以将高维数据投影到一维子空间,再对投影后的一维数据进行分析,比较不同一维投影的分析结果,找出好的投影;
(4)与其他非参数方法一样,PP方法可以用来解决某些非线性问题。PP虽然是以数据的线性投影为基础,但它找的是线性投影中的非线性结构,因此它可以用来解决一定程度的非线性问题,如多元非线性回归;
(二)PP的分类
PP包括手工PP和机械PP两方面内容。手工PP主要是利用计算机图像显示系统在终端屏幕上显示出高维数据在二维平面上的投影,并通过调节图像输入装置连续地改变投影平面,使屏幕上的图像也相应地变化,显示出高维数据在不同平面上投影的散点图像。使用者通过观察图像来判断投影是否能反映原数据的某种结构或特征,并通过不断地调整投影平面来寻找这种有意义的投影平面。
最早的图象显示系统是斯坦福大学教授J.H.Friedman等人1974年编制的,PRIM一9。
利用这个系统可以看到不超过九维的数据在任何二维平面上的投影图象,以发现数据的聚类和超曲面结构。这个系统还可以只显示指定的区域内的高维点,把其他点移出屏幕不显示出来。因此当人们在投影平面上发现了某种聚类结构时,可以把不同类的数据分开,再分别考察每个类中的数据的结构和特征。
使用手工PP 成功的例子是美国的Reaven 和Miller 于1979年关于多尿病病理的研究。他们将145人的5项指标观察值输入PRIM 一9图像显示系统,对5项指标中的每3项指标,观察145个3维点构成的点云在任何2维平面上的投影图像,最后找到了一个在医学上有意义的图像。从这张图像上可以看到隐性和显性多尿症患者的数据是完全分开的。不经过中间正常状态,两者是不能相互转换的。
机械PP 是模仿手工PP ,用数值计算方法在计算机上自动找出高维数据的低维投影,即让计算机按数值法求极大解的最优化问题的方法,自动地找出使指标达到最大的投影。它要求对一个P 维随机向量X ,寻找一个K (K
有些传统的多元分析方法可以看成是机械投影寻踪的特例。例如主成份分析,判别分析等,但是主成分分析方法是用主成分来描述或逼近原始数据,所反映的是数据的全局特征或宏观特征,这样显然就有可能会漏掉主要的局部特征或细节特征。下面以大家熟知的主成份分析为例具体说明机械投影寻踪方法。
主成份分析的目的是要考察P 维数据n x x x ,,,21 ,是否真正散布在P 维空间上,还是主要只散布在某个维数小于P 的子空间上。好比一块铁饼,虽然是三维空间中的形体,由于相对地说厚度明显地小,所以它主要是散布在二维平面上的园形东西,在与这个园形垂直的方向上没有多少布散布。我们取描述一维数据散布程度的标准差作为投影指标。实数
n y y y ,,,21 的标准是∑--=
n
i n n y y y y y 1
2
21)1/()
(),,,( σ,其中n y y n
i /1
∑=。用投影寻踪了
解数据n x x x ,,,21 的散布情况,就是找出一个方向b ,使得数据在这个方向上的投影的散布达到最大,即),,(m ax ),,('1'1
'11'1n a n x a x a x b x b σσ==,1b 就是n x x x ,,,21 的样本协差阵S 的最
大特征根1λ的特征向量。把S 的特征根从大到小排列,记作p λλλ,,,21 ,这样投影寻踪就给出了n x x x ,,,21 的第一主成份n x b x b x b '12'11'1,,, ,它的标准差1'11'1),,(λσ=n x b x b 。继续作
投影寻踪,在与1b 垂直的空间里求单位向量2b ,使),,(m ax ),,('1',1'
21'2
1
n b a a n x a x a x b x b σσ<==。可以证明2b 就是相应于2λ的特征根,进而得到n x x x ,,,21 的第二主成份n x b x b '
21'2
,, ,及其标准差2λ,如此类推,就可以求出第三、第四主成份等等,直到某个主成份的标淮差接