面板数据的主成分分析及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第26卷第1期2009年2胃贵州大学学报(自然科学版)JournalofGuizhouUniversity(NaturalSciences)V01.26No.1Feb.2009文章编号1000—5269(2009)01-0021-03面板数据的主成分分析及其应用王培,王焱鑫(贵州大学理学院,贵州贵阳550025)摘要:主要翅多元统诗孛魏主成分分析方法,将各地区生产效率层次进行分类,验证聚类分析结果的同时指出影响我国工业企业生产效率的主要原因。关键词:面板数据结构;主成分分析方法;多元统计分析牵图分类譬:0212。l文献标识码:B面板数据是同一截面单元数据集上对不同时闯段上的重复观测值,是对闻序列和截面数据的混合数据。因此筒板数据麟时具有时间维度和截面维度的特征,从截面维度上看,是有若干个体往某一爨寸刻形成的截嚣观测煎;从对闻维度上看是溆某一个体在同一截面上形成的时间序列。由予面板数据的独特优点,使面板数据模型在理论及应用领域都得到了长足的发展。然{嚣,这些研究戆出发点都是从计量建模的角度考虑的,且研究成果大多集中于计量经济学及社会学等领域。很少有学者考虑嚣板数据在多元统计巾的分折。放BortzeD.C和HermosiUaA.Y开创性的将多元统计的方法引入到面板数据的分析中来,并用概率连接函
数和遗传算法改进了聚类分橇的算法,我恁,国外对裰关问题的研究一直停滞不前;国内学者朱建平、郑兵云分别对单指标面板数据及多指标面板数据的聚类分析进行了~定的骚究,并徽了实证分析H强引,为面板数据的多元统计分析开创了新的局面。然而,聚类分析只是将已知数据、观测样本或变挺进行分类,两不熊告诉我船哪一个变燕是影l蠢分橱的主要因素,这就要求我们进一步进行面板数据的主成分分析。在困内,面板数据在主成分分析中的研究尚淄空自。本文尝试了对嚣板数据的主成分分析作了一些基础性的研究和简单的实证分析。l面板数据的数据格式及数字特征面板数据因同时含有时闯序梦lj数据和截面数据,所以其统计特性既带有时间序列的性质又具有一定的横截露特点,是一辩较为复杂魏数据结构。在进行下面的分析之前。需要对面板数据的数据格式及数字特征有一个充分的认识,了解其基本的统计特性,这对我翻即将进行的主成分分析建立基础。1.1单指标面板数据单指标面板数据的数据格式与截面数据的数据格式颇为相似。对于面板数据X。,i=l,2…。N;t=l,2….r来说,如果从横截面上看,每一个变量都有观测值;从纵割面上看,每一期都有观测值,这样的面板数据可以又一张二维表掺显示。而对于截面数据Yd,i=l,2….N;j=l,2….P而言,从横截厩上看,每一个指标都有观
测傣;跌指标维度看每一个截蘧也郝有观测值,显这样的截面数据同样可以用一张二维表格照示。比较发现,当单指标面板数据的时间维度转换为指标维度是,魏耪数据无论跌数据终槐还是统计特征都是相同的。在主成分分析中两者的样本协方差阵S及样本相关阵冠都是相同的,因此单指标的面板数据主成分分析可以瓒鉴截面数据主成分分折结暴,这里不再赘述。1.2多指标面板数据多措探嚣板数据懿数据结构程对于单指标覆板数据要复杂的多,不同于单指标面板数据的二维表格而言,多指标面板数据除了具有截面维度和时阙维度外,逐灌加了籀标维度,因越多指标嚣板数据实际上是一张三维表格。在平面上的而表示如表l【1J。设总体由Ⅳ个体组成,每个个体的特征禽有P顼捺标,时阔长度为≯,殿Xij(£),i=l,2….凡;_『=l,2….P;£=I,2….r表示第i个个体第_『个指标在时刻t的数值。数璃瓣麓:2009一激一26作者简介:王墙(1987一),女,江苏淮安人,磷士研究生,研究方向:应餍数理统计。万方数据�9�9 22�9�9 贵捐大学警报(鑫然秘擎版)第26卷表1测量露溺与鍪指标溺鼙煎样本ltr编
号X一.鼍…墨Xl…Xr..XPXt…Xr..x》1Xti(1)…黾(1)…Xx,(1)XlI(班..Xu五…Xb(f)X11(丁)…Xb(妁…X坤(T)}
Xd(1)…≮(1)…墨(1)鼍,(1)…蠢(£)…墨(£)X|l(F)…Xv(r)…疋(T),IX一(1)…X《(1)…X,(1)以l(£)…X嘻(1)…X,(£>X砒(F)…X,(?)…X。(r)2面板数据的主成分分析瑟板数据的主成分分析相对于多元统计中的总体及样本的主成分分析要复杂很多,目前没有现成的软件可供使用,本文试图寻求一种途径将多指标面板数据的结构转换为现有软件能够处理的数据类型。这是一种“降维”的思想,鼯当我们多研究问题的要求不是非常严格时,我们可以通过取均值的方法将多指标面板数据的三维表格降为二维表格。其体的徽法如下,对每一个指橼在时间维度上取均值,抽象为某一个特定时刻的情形,从而消去时间维度的影响,退化成截面数据。显然地,这种“降维”的处理方法主要存在两个缺陷。第一,信息损失,均值只能描述平均动态,不能反映其他统计特征,如方差等;第二,这样的方法存在一种潜在的假设,即各个体在每一相同指标在时闻维度上的变化方向相同,否则会出现错误【lJ。2.1主成分分桥的基本思想主成分分析是将多指标化为少数几个综合指标的一种统计分析方法【2J。由于指标(变量)的个数太多,并且彼此闻存在一定戆耜关性,使褒测篡在很大程度上反映着重复信息。而且变量较多,在高维空间中研究样本的分布规律是很难实现的。自然
她,入们希望瘸较少的综合变量采代替较多的原始变量,而这几个综合变量又足够多的反映了原始变量包含的信息并且彼此相互独立。2。2样本主成分豹求法及性质定理I设X(;)=(XIl‟…,X。)7(t=1….,搀)是来自总体x的样本.D(X)=S,S的特征值为左l≥A2≥…》Ap≥0,al,a2,..。ap力穗应懿鼙位正交向量,则第i个主成分为Zi=聪‟lX(i=I,2…。,P){^一~性质l2=†∑Z(1)=(而….,~)=0,而z,Z—f0,当i≠J,…。【(rt一1)A;,当i=_『,墨i≠歹时,第i个主成分的毒嚣分向量五与第歹个燕成分的得分向量Z,相互正交。Pl性质2∑A;=P。称等为样本生成分Zk酶贡i=1r献率;又称巫±』上生∑些为样本主成分P五….,Z。?(m<尹)懿累积贡献率以上的定理1为我们接下来的实证分析提供
了依托,性质1主要用来对样本进行分类,性质2为我们确定主成分酶个数提供依据。在本文我们是按累积贡献率答案达到一定程度(90%)来确定主成分的数目的。关于主成分分析的其他虑容觅参考文献〔2】。2.3实证分析国有及规模以上的葛}国有企蠛在工业经济中占有绝对眈重,国家每年都对这类企监进行详细的调查。本文仍将选取这类企业作为研究对象;选取全员劳动生产搴、固定资本占有率、流动资本占有率三个指标考察嚣有及规模