第八章地理系统要素关系的主成分分析
主成分分析
一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则系数l ij 的确定原则:①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关;②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。
新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X ΛM M M ΛΛ212222111211⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p pp x l x l x l z x l x l x l z x l x l x l z ΛΛΛ22112222121212121111............p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。
主成分分析
主成分分析主成分分析、因子分析等在多元统计分析中属于协方差逼近技术。
主要是从协方差矩阵出发,实现一种正交变换,从而将高维系统表示为低维系统,在此过程中可以揭示研究对象的许多性质和特征。
主成分分析的结果可以用于回归分析、聚类分析、神经网络分析等等。
只要懂得线性代数中二次型化为标准型的原理,就很容易掌握主成分分析的原理,进而掌握因子分析的原理。
在理解正交变换数学原理的基础上,我们可以借助Excel 开展主成分分析。
为了清楚地说明主成分的计算过程,不妨给出一个简单的计算实例。
【例】2000 年中国各地区的城、乡人口的主成分分析。
这个例子只有两个变量(m=2):城镇人口和乡村人口;31 个样品:即中国的31 个省、自治区和直辖市(n=31)。
资料来自2001 年《中国统计年鉴》,为2000 年全国人口普查快速汇总的11 月1 日零时数。
由于变量太少,这个例子仅仅具有教学意义——简单的实例更容易清楚地展示计算过程的细节。
计算步骤5.1.1 详细的计算过程首先,录入数据,并对数据进行适当处理(图5-1-1)。
计算的详细过程如下。
第一步,将原始数据绘成散点图主成分分析原则上要求部分变量之间具有线性相关趋势。
如果所有变量彼此之间不相关(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量。
如果原始变量之间为非线性关系,则有必要对数据进行线性转换,否则效果不佳。
从图5-1-2 可见,原始数据具有非线性相关趋势,可以近似匹配幂指数函数,且测定系数R2=0.5157,相应地,相关系数R=0.7181(图5-1-2a);取对数之后,点列具有明显的线性趋势(图5-1-2b)。
第二步,对数据进行标准化标准化的数学公式为我们将对对数变换后的数据开展主成分分析,因此只对取对数后的数据标准化。
根据图5-1-1所示的数据排列,应该按列标准化,用xij 代表取对数之后的数据,则下式分别为第j 列数据的均值和标准差,xij 为第i 行(即第i 个样本)、第j 列(即第j 个变量)的数据,xij*为相应于xij 的标准化数据,n=31 为样品数目(参见图5-1-1)。
主成分分析概要
什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
主成分分析法
主成分分析法什么事主成分分析法:主成分分析(principal components analysis , PCA 又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
地理信息系统——原理方法和应用08空间分析
地理学中的第一条法则,任何事物都与其它事情相关,但是距离近的事物比距离远的关系更大。
Waldo Tobler第八章空间分析导读:空间分析源于60年代地理和区域科学的计量革命,在开始阶段,主要是应用定量(主要是统计)分析手段用于分析点、线、面的空间分布模式。
后来更多的是强调地理空间本身的特征、空间决策过程和复杂空间系统的时空演化过程分析。
实际上自有地图以来,人们就始终在自觉或不自觉地进行着各种类型的空间分析。
如在地图上量测地理要素之间的距离、方位、面积,乃至利用地图进行战术研究和战略决策等,都是人们利用地图进行空间分析的实例,而后者实质上已属较高层次上的空间分析。
地理信息系统集成了多学科的最新技术,如关系数据库管理,高效图形算法,插值,区划和网络分析,为空间分析提供了强大的工具,使得过去复杂困难的高级空间分析任务变得简单易行。
目前绝大多数地理信息系统软件都有空间分析功能。
空间分析早已成为地理信息系统的核心功能之一,它特有的对地理信息(特别是隐含信息)的提取、表现和传输功能,是地理信息系统区别于一般信息系统的主要功能特征。
空间分析是对分析空间数据有关技术的统称。
根据作用的数据性质不同,可以分为:(1)基于空间图形数据的分析运算;(2)基于非空间属性的数据运算;(3)空间和非空间数据的联合运算。
空间分析赖以进行的基础是地理空间数据库,其运用的手段包括各种几何的逻辑运算、数理统计分析,代数运算等数学手段,最终的目的是解决人们所涉及到地理空间的实际问题,提取和传输地理空间信息,特别是隐含信息,以辅助决策。
本章介绍GIS中实现空间分析的基本功能,包括空间查询与量算,缓冲区分析、叠加分析、路径分析、空间插值、统计分类分析等,并描述了相关的算法,以及其中的计算公式。
1.空间查询与量算查询和定位空间对象,并对空间对象进行量算是地理信息系统的基本功能之一,它是地理信息系统进行高层次分析的基础。
在地理信息系统中,为进行高层次分析,往往需要查询定位空间对象,并用一些简单的量测值对地理分布或现象进行描述,如长度,面积,距离,形状等。
土地信息系统课程习题库和参考答案
第七章 土地信息的表示与可视化
1.土地信息的表示方法有哪些? 2.地图与土地信息系统有何联系与区别? 3.地图符号的涵义、作用、构成。 4.实现自动注记放置的系统应具备的功能。 5.面状专题内容的表示方法。 6.专题地图设计的内容。 7.如何进行土地信息的可视化? 8.空间可视化的类型。 9.何为虚拟地理环境,有何特点?
2、 简述土地信息系统的组成、基本功能。
土 地 信 息 系 统 的 组 成 : 一般由硬件、软件、数据库和人组成。硬件的配置主要包括输入设 备(如数字化仪、扫描仪、键盘等),输出设备(如绘图仪、打印机、显视器等),计算机系统,数 据存贮设备(如磁盘和光盘驱动器、磁带机等);信息系统的软件由管理软件和功能软件组成; 土地信息系统的核心是数据库(Data Base),用于存贮各种空间位置、拓扑关系和非空间数据。 其基本功能:1、数据采集、检验与编辑; 2、数据格式化、转换、概化;3.数据的存储与组织 4.查询、统计、计算 5、空间分析 6、显示
10 设计题:随着土地管理工作的深入,地籍、地类历史数据的查询与检索越来越频繁,土
地管理工作者对于土地信息系统时空数据管理功能的要求也越来越高。目前,即使一座中等 规模的城市,每天土地使用权交易量平均都可达十宗以上。存储并使用这些与日俱增的大量 数据对土地信息系统的时空数据管理功能是一个巨大的挑战。为满足实际工作对时空数据的 管理功能要求,提出你的设计方案。
高中地理 【地理素养】地理要素之间的基本联系总结
【地理素养】2020高考地理要素之间的基本联系总结一、地理要素地理要素是地图的地理内容,包括表示地球表面自然形态所包含的要素,如地貌、水系、植被和土壤等自然地理要素与人类在生产活动中改造自然界所形成的要素,如居民地、道路网、通讯设备、工农业设施、经济文化和行政标志等社会经济要素。
二、地理要素之间的基本联系地理环境各要素(大气、水、生物、岩石、土壤、地形)相互联系、相互制约、相互渗透。
1.地形对气候的影响(1)地形→气候类型的复杂性:(如:亚洲、横断山区气候复杂)(2)地形→气候分布:分布范围、分布形态(如:西欧与北美的温带海洋性气候的分布)。
南北走向的山脉对海陆之间的水汽交换有阻碍作用,使沿海地区的气候类型呈狭长带状分布。
如南、北美西海岸。
而东西走向的山脉使气候类型分布向内地延伸,如欧洲温带海洋性气候的分布。
(3)地形→气候特征:→气温:①随海拔升高,气温降低。
产生了“一山有四季,十里不同天”的景观。
在中低纬的高山地区表现尤其明显。
(垂直自然带种类丰富多样)盆地地形:空气不易扩散,盆地底部气温更高(冬季加重暖冬与雾霾)。
如果冷空气进入盆地堆积,易导致气温更低(加剧了寒潮或者冷空气的影响时间,对农业生产极为不利);地形可以阻挡冷空气(我国东西走向的天山、阴山、昆仑山、秦岭等);山区地形:海拔越高,气温越低。
产生了“一山有四季,十里不同天”的景观。
在中低纬的高山地区表现尤其明显。
(垂直自然带种类丰富多样)盆地地形:空气不易扩散,盆地底部气温更高(冬季加重暖冬与雾霾)。
如果冷空气进入盆地堆积,易导致气温更低(加剧了寒潮或者冷空气的影响时间,对农业生产极为不利);地形可以阻挡冷空气(我国东西走向的天山、阴山、昆仑山、秦岭等);背风坡导致气流下沉增温,加剧背风坡的干旱程度,提升了背风坡森林火险等级(焚风效应)。
→降水;①山地迎风坡降水丰沛。
而背风坡形成雨影区,降水稀少。
(澳大利亚的大分水岭)②迎风坡的降水从山麓到山顶一般呈“少—多—少”分布2.气候对地貌的影响(1)高寒地区:气候寒冷,冰蚀地貌广布;(2)沙漠地区:降水稀少,昼夜温差大,风力强劲。
八地理系统要素关系的主成分分析新PPT课件
因此,人们会很自然地想到,能否在相关 分析的基础上,用较少的新变量代替原来较 多的旧变量,而且使这些较少的新变量尽可 能多地保留原来变量所反映的信息?
x2 x2
0 0
得基础解系
c
1
5
基础解系
若ξ1,ξ2,...ξs 是齐次线性方程组解空间的一个极大无关组,则称
ξ1,ξ2,...ξs 是 该 方 程 组 的 一 个 基 础 解 系 , 即 它 满 足
(1) ξ1,ξ2,...ξs 线 性 无 关 , ξ1,ξ2,...ξs 均 是 方 程 组 的 解 ;
§3 主成分分析的解法
第一主成分:特征向量为
0.66
I
0.75
λⅠ=37.9
第二主成分:特征向量为
II
0.75 0.66
λII=6.5
x2
Ⅰ
30
20
10
Ⅱ
x1
10 20 30
由方差-协方差确定的椭球
§3 主成分分析的解法
x2
30
变量x1的方差:20.3
变量x2的方差:24.1 20
20.3+24.1=44.4=37.9+6.5 10
➢6.计算主成分得分
z1 l11x1* l12 x2* l1p x*p z11 z12
z2
l21x1* l22 x2*
l2
p
x
* p
z
21
z 22
z1m
z
2m
zm lm1x1* lm2 x2* lmp x*p
计量地理学
计量地理学1、地理数据是用一定的测度方式描述和衡量地理对象的有关量化标志,是对地理问题进行定量化描述和研究的基础,是一切数学方法在地理学中应用的先决条件。
2、相关分析:分析地理要素之间的相关关系。
回归分析:拟合地理要素之间的数量关系、预测发展趋势。
方差分析:研究地理数据分布的离散程度。
时间序列分析:用于地理过程时间序列的预测与控制研究。
主成分分析:用于地理数据的降维处理及地理要素的因素分析与综合评价。
聚类分析:用于各种地理要素分类、各种地理区域划分趋势面分析:用于拟合地理要素的空间分布形态。
3、对计量地理学的评价评价一:在地理学的学科体系中,“计量地理学”担负着方法论的任务,将数学方法应用于地理问题的认识、分析和研究,有利于地理学由定性描述走向定量、定位的分析。
地理系通过“计量地理学”的教学,让本科学生了解学科发展的特点和趋势,掌握计量地理学的基础知识、常用方法,理解数学模型在实际工作中的作用和意义。
结合实际问题的分析,是学生能够正确处理数据资料,建立起适宜的数学模型,把数学方法同现实问题紧密结合,培养学生的实际动手能力,为其他课程的学习打下了良好的数理基础,也为从事实际工作准备了条件,可以说,这门课程的教学对于提高学生的素质发挥了积极作用。
评价二:计量地理学让本科学生了解学科发展的特点和趋势,掌握计量地理学基础知识、基本数学模型,着重培养学生正确处理地理数据资料,利用定量方法解决实际问题的能力。
对于提高学生的综合素质,起到了重要的作用。
4、地理数据的基本特征(简答)一、数量化、形式化与逻辑化二、不确定性三、多种时空尺度四、多维性一、数量化、形式化与逻辑化。
定量化的地理数据是建立地理数学模型的基础,其作用为:确定模型的参数、给定模型运行的初值条件;检验模型的有效性。
形式化、逻辑化与数量化,是所有地理数据的共同特征。
二、不确定性。
各种原因所导致的数据误差。
(1)地理系统的复杂性。
(2)数据误差。
三、多种时空尺度。
主成分分析
第八章 主成分分析与因子分析一、 学习目的与要求主成分分析也称为主分量分析,是由霍特林于1933年首先提出的.主成分分析是利用降维的思想,在尽量少损失信息的前提下将多个指标转化为几个综合指标的应用统计方法.通常把转化生成的几个综合指标称为主成分,其中每个主成分都是原始变量的线性组合,它们不仅能综合反映原有指标的信息,而且使各个主成分之间互不相关,因此使得每个主成分比原始变量具有某些更优越的性能.这样在研究复杂问题时就可以只考虑少数几个主成分而不致于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量间的规律性,同时使问题得以简化,提高分析效率.本章主要讨论主成分分析及因子分析的基本思想和方法.学习本章要密切联系实际,着重理解主成分分析及因子分析的基本思想方法,了解主成分的性质,了解主成分分析和因子分析的求解方法、实现步骤及其异同.二、 内 容 提 要(一)主成分分析1.主成分分析的基本思想日常生活和科学研究中,人们为了更全面、准确地反映出事物的特征及其变化规律,往往需要考虑与其有关的多个指标,这些指标在应用统计中也称为变量.这样就产生了如下的问题:一方面为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性.同时由于各指标均是对同一事物的反映,不可避免的造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律.因此有必要在尽可能少丢失信息的前提下减少指标的个数(降维),即从所研究的多个指标中,求出几个新指标,它们能综合原有指标的信息,用这几个新指标进行分析仍应用统计方法学习指导能达到我们的目的.主成分分析正是研究如何通过原始变量的少数几个线性组合来解释原来变量绝大多数信息的一种统计方法.既然所研究问题涉及各个变量之间存在一定的相关性,就必然存在着起主导作用的共同因素.据此可通过对原始变量相关矩阵或协方差矩阵内部结构关系研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与化简问题的作用,使得在研究复杂问题时更容易抓住主要矛盾.总之,利用主成分分析得到的主成分与原始变量之间有如下基本关系:(1)每一个主成分都是某些原始变量的线性组合. (2)主成分的数目大大少于原始变量的数目. (3)主成分保留了原始变量绝大多数信息. (4)各主成分之间互不相关.通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系及统计规律.2.主成分分析的基本理论设某研究涉及个指标,分别用表示,这个指标构成的随机向量为.设随机向量m m x x x ,,,21"m ),,,(′=x x x X 21m "X 的均值为µ,协方差阵为.Σ对X 进行线性变换,可以形成新的综合变量,用Y 表示,即新的综合变量可以由原始变量线性表示如下:(8-1) ⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=mmm m m m mm mm x l x l x l y x l x l x l y x l x l x l y """""22112222121212121111由于可以任意地对原始变量进行线性变换,由不同的线性变换得到的新的综合变量Y 的统计特性也不尽相同.因此为了取得较好的效果,我们总是希望的方差尽可能的大且各之间不相关,由于X l i i y ′=i y i i i i D Dy l l X l Σ′=′=)(而对任意的常数,有c第八章 主成分分析与因子分析i i i i i c c c c D l l l l X l ΣΣ′=′=′2)(因此对不加限制时,可使任意增大,问题将变得没有意义.我们将线性变换约束在下面的原则下:i l i Dy (1),即 (2); 1=′i i l l 122221=+++im i i l l l "(2)与不相关,(i y j y m j i j i ,,2,1,;"=≠); (3)是的一切满足(1)的线性组合1y m x x x ,,,21"X l ′=y 中方差达最大者;是与不相关的的所有线性组合中方差达最大者;以此类推,是与均不相关的的所有线性组合中方差达最大者;2y 1y m x x x ,,,21"m y 121,,,−m y y y "m x x x ,,,21"基于以上三条原则决定的综合变量分别为原始变量的第一、第二、"、第m 个主成分.其中,各综合变量在总方差中占的比重依次递减.在实际应用中通常只挑选前几个方差较大的主成分,从而达到简化系统结构、抓住问题实质的目的.m y y y ,,,21"3.主成分分析的几何意义我们以两个指标为例说明主成分的直观意义.设有个样品,每个样品有两个指标,,其平面n 1x x 2数据散点图如图8-1所示,显然两指标存在相关关系.这n 个样品无论沿轴方向还是沿1x 2x 轴方向均有较大的分散性, 其分散程度可分别用变量的 1x 方差和的方差定量的表示,2x 显然,若只考虑和中的任 1x 2x 何一个,原始数据中的信息均会有较大的损失.我们的目的是考虑和的线性组合,使原始样品数据可有新的变量和来刻画.在几何上表示就是将坐标轴按逆时针方向旋转1x 2x 1y 2y θ角度,得到新坐标轴和,坐标旋转公式如下:1y 2y应用统计方法学习指导112212cos sin sin cos y x x y x x θθθθ=+⎧⎨=−+⎩其矩阵形式为:1122cos sin sin cos y x y x θθθθ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥−⎣⎦⎣⎦⎣⎦UX 式中,U 为旋转变换矩阵,由上式可知它是正交的,即满足,1−′=U U ′=U U I 经过这样的旋转之后,n 个样品点在轴上的分散程度最大,变量代表了原始数据绝大部分信息,这样,即使不考虑变量也无损大局.因此,经过上述旋转变换就可以把原始数据的信息集中到轴上,对数据中包含的信息起到了浓缩的作用.进行主成分分析的目的就是找出旋转矩阵U ,进而求的新的综合指标,即可依据实际问题的具体情况选择主成分.1y 1y 2y 1y 4.主成分及其性质设为维随机向量,则),,,(21′=m x x x "X m X 的第1,2,…,主成分定义为m X l i i y ′=,1=′i i l l (m i ,,2,1"=), 它们满足(1)第一主成分是一切形如1y X l ′=y ,1=′l l 使的方差达极大者; y (2)第二主成分是一切形如2y X l ′=y ,1=′l l 且与不相关使的方差达极大者;1y y (3)第i 主成分是一切形如)(m i y i ≤X l ′=y ,1=′l l 且与不相关使的方差达极大者;121,,,−i y y y "y 由协方差矩阵求解主成分:设),,,(21′=m x x x "X 为m 维随机向量,协方差阵为,Σ的m 个特征值为Σ021≥≥≥≥m λλλ",相应的标准正交化特征向量为,则m l l l ,,",21X 的第i 主成分X l i ′=i y ,且i λ=i Dy (). m i ,,2,1"=充要条件:设Y 为维随机向量,m Y 的分量依此是m y y y ,,,21"X 的第一、第二、…、第主成分的充分必要条件为m第八章 主成分分析与因子分析(1)X T Y ′=,为正交阵;),,,(21m l l l T "=(2)Y 的协方差矩阵为对角阵),,,(21m diag λλλ"=Λ; (3)m λλλ≥≥≥"21.主成分的目的是为了减少变量的个数,因此一般不用个主成分,而是用个主成分,在应用中我们自然要考虑k 应取多大.为此,我们引入累计贡献率.m m k <累计贡献率:称为主成分的贡献率,为主成分的累计贡献率.∑=mj j i 1/λλi y ∑∑==mj j ki i 11/λλk y y y ,,,21"通常取使累计贡献率达70%~80%以上.累计贡献率表达了个主成分提取原来指标的多少信息,这需要用到下面的概念.k k m x x x ,,,21"因子负荷量:称jkj k j k Dx Dy x y x y ),(Cov ),(=ρ为因子负荷量;而称为主成分对原变量的贡献率.∑==ki j i j x y 12),(ρνk y y y ,,,21"j x 主成分具有如下性质:(1),其中∑∑===mi ii mi i 11σλm m ij ×=)(σΣ .(2)jj jk k j k t x y σλρ/),(=,其m m ×中ij t =)(T 阵.(3) .(4).(5)2=∑为充要条件中的正交jj jk ki i j t σλν/21∑==∑==mi k i k ii x y 12),(λρσ1),(1=mx y ρ.指出的是:为了消除不同量纲可能带来的影响,通常将变量标准化. k i k 需要令iii Dx Ex x x −=* ),,2,1(m i "=,应用统计方法学习指导这时的协方差阵就是),,,(**2*1*′=m x x x "X X 的相关阵,由相关阵出发去求主成分.R R 5.样本主成分上面讨论的主成分是在Σ(或R )已知的情况下,但在实际问题中(或)往往是未知的,这就需要用样本去估计.ΣR 设总体的组观察值为,.令),,,(21′=m x x x "X N ),,,(21′=im i i i x x x "X ),,2,1(N i "= ∑=−−−=Nl j lj i li ij x x x x N 1))((11σ, (8-2)jjii ij ij r σσσ=, (8-3)其中∑==Nl li i x Nx 11.则有样本协方差阵 m m ij ×=)(σS , (8-4) 样本相关阵 , (8-5) m m ij r ×=)(R 它们分别为总体协方差阵和总体相关阵的估计.有(或S R )出发求得的个标准正交化的特征向量,则S m m l l l ,,,21"X l i ′=i y ),,2,1(m i "=,称为个样本主成分.将m X 的观察值代入,可得样本主成分数据j ji y X l i ′=),,2,1;,,2,1(m i N j ""==.(二)因子分析在科学研究中,往往需要从多个角度对反映事物现象进行观测,也就设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律.多变量大样本虽然会为我们的科学研究提供丰富的信息,但确增加了数据采集和处理的难度.更重要的是在大多数情况下,许多变量之间存在一定的相关关系,从而增加了问题分析的复杂性.因子分析就是将大量的彼此可能存在相第八章 主成分分析与因子分析关关系的变量转换成较少的,彼此不相关的综合指标的一种多元统计方法.因子分析最初是从心理学和教育学发展起来的,它也是多元统计分析中数据降维的一种.1. 因子分析模型设X 为维向量,其均值为m µ,协方差阵为Σ.如果X 可以表示为U Λf X ++=µ, (8-6) 其中()ij m k λ×=Λ为常数矩阵,为维向量,可以是随机的,也可以是非随机的,U 为维向量;则称f k m X 有k 个因子的模型,称为公共因子,U 称为特殊因子,称为因子载荷矩阵. f Λ 当为随机向量时,通常假定 f 0=f E ,k I f =)(Cov ,,, (8-7)0=U E ψU ==ˆ),,()(Cov 221m diag ψψ" ,0),(Cov =U f 满足(8-9),(8-10)的因子模型称为正交因子模型,此时的分量是相互正交的.f 由上述假设,可得))(()(Cov ′−−==µµX X X ΣE )()(′++=U Λf U Λf EΛf f Λ′′=E =′+U U E ΛΛ′ψ+, (8-8) 上式等价于212i kj ij ij ψλσ+=∑= , (8-9) 22i i h ψ+=),,2,1(m i "=式中,∑==kj ij i h 122λ应用统计方法学习指导它反应了公共因子对的影响,称为共性方差.i x 需要指出的是:对于一个给定的协方差阵Σ和均值向量µ,如果可分解为(8-8)式,那么即可得到因子模型(8-6).因子分析的目的就是由样本出发给出和ΣΣµ的估计,然后确定分解式(8-8),并给公共因子以实际背景解释,最后得到因子模型.2.建立因子模型——主因子法因为ΛΛψ′=−Σ为非负定阵,秩为,故存在一个正交矩阵,使得 k P ΦΣ==−′ˆ)0,,0,,,,()(21""k diag ϕϕϕP ψP ,且),,2,1(0k i i "=>ϕ.设为的前k 列,1P P ),,,(211k diag ϕϕϕ"=Φ,,则有),,,(2/12/122/112/11k diag ϕϕϕ"=Φ ,)(2/1112/111′=′=−ΦΦΦΣP P P P ψ故为一个解.如果我们能给出ψ的一个合适的估计,则我们可用的前个标准正交化的特征向量来得到的一个估计,这种估计称为主因子法.2/111Φ=P Λ1ˆψ1ˆˆψ−Σk Λ2/111ˆˆˆΦ=P Λ设为来自总体N X X X ,,,21"X 的长度为N 的样本.µ、的估计分别采用Σ ∑===Ni i N11ˆX X µ, (8-10)()(11ˆ1′−−−=∑=X X X X i Ni i N Σ, (8-11) 估计ψ的方法很多,常用的方法如下:, (8-12))ˆ,,ˆ(ˆ221m diag ψψ"=ψ其中, , (8-16)ii i σψ/1ˆ2=m m ij ×−=)(ˆ1σΣ 主因子法的关键是的选择.尽管k ψ−Σ的特征值都是非负的,但的ψˆˆ−Σ第八章 主成分分析与因子分析特征值有可能是负的.这时选择满足:k (1)使k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"比较接近,这里m ϕϕϕˆˆˆ21≥≥≥"为的特征值; ψˆˆ−Σ (2)不超过正特征值k j ϕˆ的个数. 主因子法的具体步骤如下:(1)计算Σ的估计、的初始估计,公式有(8-11)、(8-12)给出;Σˆψψˆ (2)求的个特征值ψˆˆ−Σm m ϕϕϕˆˆˆ21≥≥≥"及相应的为的标准正交化的特征向量;选择使ψˆˆ−Σm 21l ,,l ,l "k k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"很接近,同时不超过正特征值k j ϕˆ的个数,令 , ,)(ˆk l ,,l ,l P 21"=1)ˆ,,ˆ,ˆ(ˆ2/12/122/112/11k diag ϕϕϕ"=Φ则的初始估计为; Λ2/111ˆˆˆΦ=P Λ (3)令, )ˆˆˆ(ˆΛΛ′−=Σdiag ψ要求ψˆ的元素非负(负值取为零);以ψˆ代替(2)的ψˆ,重复步骤(2)的计算,直到、ΛˆΦˆ稳定为止. 由于,所以由(8-13)估计等价于估计共性方差:22i i ii h ψσ+=2i ψ2i h 22ˆˆˆi ii i h ψσ−=iiii σσ1ˆ−=. (48-1) 在实际问题中,有时需要由相关阵出发讨论,这时只要将代替作上述分析即可.共性方差常用下面的估计:R R Σ ijij i r h ≠=max ˆ2. (8-15) 此时. (8-16) 22ˆ1ˆii h −=ψ应用统计方法学习指导三、 问 题 与 思 考1.主成分分析的基本思想是什么?如何选择主成分?2.什么是主因子法?四、 例 题 析 解例8-1设),,(321′=x x x X 的协方差阵为,试求: ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−=Σ220242022 (1)第一、二主成分贡献率和累计贡献率,并计算的第一、二主成分.21,y y )1,2,1(′=X (2)第一、二主成分对原变量的因子负荷量和贡献率. 21,y y 2x 解: (1)求特征值,由0)6)(2(2224222=−−=−−−−−−−λλλλλλ解得三个特征值分别为61=λ,22=λ,03=λ.(2) 求特征向量,由 022242022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξλλλi ii将61=λ代入上式得 0420222024=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξ解得1=ξ, 2−=η,1=ζ,即得相应的标准化特征向量为⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−++=4082.08165.04082.01216112114111l 同理解得22=λ相应的特征向量(标准化)为第八章 主成分分析与因子分析⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−=7071.007071.0101212l 得第一主成分的贡献率为%75)026/(6=++ 第二主成分的贡献率为%25)026/(2=++ )1,2,1(′=X 的第一、二主成分分别为()8166.01214082.0,8165.0,4082.011−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y()01217071.0,000.0,7071.022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y (2)由jj jk k j k t x y σλρ/),(=∑==ki j i j x y 12),(ρν得第一、二主成分对原变量的因子负荷量和贡献率为:21,y y 2x 141626/),(2221121−=×−×==σλρt x y0/),(2222222==σλρt x y ,1),(2122==∑=i j i x y ρν五、自 测 练 习1.设的协方差阵为),,(321′=x x x X ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=Σ14/14/14/114/14/14/11应用统计方法学习指导(1)试讨论主成分对原变量的贡献率和累计贡献率,并计算的第一、二主成分;321,,y y y )3,2,1(′=X (2))3,1,21(′−==EX µ,试利用主因子法建立因子模型.2. 下表中是10名男中学生的身高(1x )、胸围(2x )、体重(3x )、的数据,试进行主成分分析.身高(1x ) 胸围(2x )体重(3x )149.5 162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.769.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.038.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.53.举一个应用因子分析方法的实例.。
【地理干货】高考地理整体性各要素关联分析
【地理干货】高考地理整体性各要素关联分析一、自然地理环境的整体性特征1.自然地理环境整体的基本要素:气候(大气)、地形(地貌)、水文(河流)、土壤、生物(植被、动物)。
2.三大循环:地理环境各要素通过水循环、生物循环及岩石圈循环,进行物质迁移和能量交换,形成一个相互渗透、相互制约和相互联系的整体。
3.两大新功能:构成整体才能形成,单一要素并不具备。
生产功能[自然地理环境具有合成有机物的能力]平衡功能[使自然地理环境的性质保持稳定的能力]4.三大表现及意义:(1)自然地理环境各要素与环境总体特征协调一致;意义:自然地理环境具有同一演化过程,保证了自然地理要素之间的协调。
举例:水土流失过程是地貌、土壤、生物、水文各个要素统一的变化过程(2)自然地理环境各要素之间相互制约,即“牵一发而动全身”;意义:遵循自然地理环境的整体性规律,并以此指导人们的生产、生活实践。
举例:(3)不同区域之间,一个区域的变化不可避免地影响其它区域。
意义:全球共同努力保护人类共同的家园——地球举例:【解读】青藏高原的隆起(地形地貌),阻挡了西伯利亚南下气流(大气),导致中亚、西亚干旱区的细小粉尘随冬季风(大气)向东输送,逐渐沉积,形成黄土高原(地形地貌)。
黄土高原土质疏松(土壤),极易受流水冲蚀,泥沙随流水汇入黄河,被流水搬运到下游(水文),由于流速变慢,逐渐淤积,形成“地上河”,造成严重水患(生态环境问题)。
颗粒更小的泥沙则注入渤海,致使河口向海延伸。
这一系列的过程彼此间连成一根长链,其间发生着物质、能量运动,产生多方面的生态环境效应。
【整体性答题模板构建】在分析某地区地理环境的整体性时通常要从以下几个方面构建答题思路:分析角度 解题方法1.分析区域自然地理环境特征 主要从分析地理位置入手,抓住区域内的地貌、气候、水文、植被、土壤等环境要素进行分析,点明每一要素呈现的主要特点即可2.解释区域内某种地理现象的形成原因“一果多因” 由于区域地理环境要素的相互影响、相互制约,区域地理现象往往是不同地理要素间的因果联系导致的,其中气候、地貌是许多地理现象形成的基础因素,分析时应理清要素间的因果联系链,由因到果步步推进,完整呈现因果关系3.分析区域环境的变化过程及特点“牵一发而动全身”区域内某要素的变化不可避免地会影响区域其他要素的变化,乃至整个区域环境的整体变化4.分析区域间的环境联系“区域之间” 主要从自然地理环境的物质循环和能量交换的角度分析不同区域间存在的因果联系,组织成逻辑思路清晰的因果链条,规范学科语言的使用。
8第八章地理系统要素关系的主成分分析
第八章地理系统要素关系的主成分分析地理工作者在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域的特征和“职能”,为地理区域类型的划分和制定区域发展战略提供依据。
但由于指标多会增加分析问题的复杂性,能否通过某些线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地理系统进行分析的关键问题。
例如在环境研究中,需要对许多环境要素进行观测;在土地资源研究中,需要对土壤样品进行多指标的分析化验。
而这些要素和指标之间,常存在密切关系,要考察全部要素和测试指标,常常要做大量重复的工作。
例如有30测试指标,也许10多种指标即可代表。
由此可见减少研究的要素,使系统简化,是地理学研究中的重要环节。
事实上,如果复杂的地理系统,不加以任何简化,不抓住对地理系统影响的主要矛盾,要对之进行深入的研究,几乎是不可能的。
本章介绍主成分分析方法就是解决上述问题的数学方法。
§1 主成分分析方法原理主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法,达到降维和去相关目的,既由多个变量变换为少数几个相互独立的综合变量。
主成分分析也称K-L变换。
因子分析不仅可以用来研究变量之间的相关关系,还可用来研究样品之间的相关关系,通常将前者称之为R 型因子分析,后者称之为Q 型因子分析。
假设有n 个地理样本,每个样本观测p 个指标,如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清它们的规律须在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,一个自然的想法是找比较少的综合指标来代表原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较多指标的信息,它们彼此之间又是独立的。
综合指标如何选取呢?通常是取原指标的线性组合,适当调它们的系数,使综合指标之间相互独立且代表性最好。
记原来的变量指标为12,...,p x x x ,综合指标(新综合变量)为12,,...,m z z z (m p ) 即⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m pp p p x l x l x l z x l x l x l z x l x l x l z2211222121212121111 可以要求22212...1k k kpl l l +++= (单位向量)以限制i z 取值大小,利于对比。
第八章 因子分析地理模型
求解R矩阵的特征方程|R-λI|=0,记特征值为
λ1>λ2 …>λp>=0,特征向量矩阵为U,这样有关
系: R=U
λ1 0
λ2 …
U’
0 λp
U为正交矩阵,并且满足U’U=UU’=I
令F=U’X,则得
λ1 0
FF’=
λ2 …
0 λp
F为主因子阵,并且 Fα=U’Xα(α=1,2…n),即每 一个Fα为第α个样品主因子观测值。 在因子分析中,通常只选其中 m(m<p) 个主因子。
浙 江 6149 41.88 6221
2966
37 8721
安 徽 2521 55 6380 51.82 7438
2699
42 8848
1、将原始数据标准化 2、建立六个指标的相关系数阵R 3、共因子方差 4、总方差解建立因子载荷阵: 5、建立因子载荷阵: 由于前三个特征值的累计贡献率已达 93.505%,所以取前三个特征值建立因子 载荷阵如下:
主成分分析从原理上是寻找椭球的所有主轴。因此, 原先有几个变量,就有几个主成分。
而因子分析是事先确定要找几个成分,这里叫因子 (factor)(比如两个),那就找两个。
这使得在数学模型上,因子分析和主成分分析有不少 区别。而且因子分析的计算也复杂得多。根据因子分 析 模 型 的 特 点 , 它 还 多 一 道 工 序 : 因 子 旋 转 ( factor rotation);这个步骤可以使结果更好。
x11 x12……x1n x21 x22……x2n
..
X=
..
..
xP1 xP2……xPn
p表示变量数,n表示样本数。
第8章 主成分分析
The principles of Principal Component Analysis (PCA)
X2 (Variable 2)
The original data points, plotted on the original axes of variables (X1, X2, X3) For convenience, we have assumed that the data points are in the shape of a cuboid.
-0.5 C1_H1 C1_H2 OFF-FLAV -1.0 -1.0 RESULT1 ,X-expl : 58%,28% -0.5 0 0.5
C2_H3 C1_H3
PC1 1.0
Map of Samples & Variables
Principal Component Analysis (PCA)
• 12 Jams samples were made from berries plucked in various cultivars and seasonal times. • Several parameters (sensory measurements) were measured on each sample.
1.0 PC2 Bi-plot R.SMELL C4_H3 R.FLAV C4_H2 0.5 C3_H2 SOURNESS C3_H3 SHININES JUICINES C4_H1 0 C3_H1 C2_H1 T HICKNES C2_H2 CHEW.RES BIT TERNE SWEET NES COLOUR REDNESS
Sample comparison according to all 12 variables: multivariate model (PCA)
第八章主成分分析principalcomponents
(2) 选择几个主成分。主成分分析的目 的是简化变量,一般情况下主成分的个数应 该小于原始变量的个数。关于保留几个主成 分,应该权衡主成分个数和保留的信息。
•• • •
•
•
•• •
•• •
•• • • • • •
•
•• •
•
•
•
• ••
• • ••
•
•• • •
•
•• •
•• •
•
x 1
释
•
••
• •
•
为了方便,我们在二维空间中讨论主成分的几何意义。
设有n个样品,每个样品有两个观测变量xl和x2,在由变量 xl和x2 所确定的二维平面中,n个样本点所散布的情况如 椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向 或x2轴方向都具有较大的离散性,其离散的程度可以分别 用观测变量xl 的方差和x2 的方差定量地表示。显然,如果 只考虑xl和x2 中的任何一个,那么包含在原始数据中的经 济信息将会有较大的损失。
主成分分析 主成分回归 立体数据表的主成分分析
§1 基本思想
一项十分著名的工作是美国的统计学家斯通 (stone)在1947年关于国民经济的研究。他曾利用美 国1929一1938年各年的数据,得到了17个反映国民 收入与支出的变量要素,例如雇主补贴、消费资料 和生产资料、纯公共支出、净增库存、股息、利息 外贸平衡等等。
u
pp
X ( X1, X 2,, X p )
§4 主成分的性质
一、均值 E(Ux) U
【地理素养】地理要素之间的基本联系总结
【地理素养】地理要素之间的基本联系总结【地理素养】2020高考地理要素之间的基本联系总结一、地理要素地理要素是地图的地理内容,包括表示地球表面自然形态所包含的要素,如地貌、水系、植被和土壤等自然地理要素与人类在生产活动中改造自然界所形成的要素,如居民地、道路网、通讯设备、工农业设施、经济文化和行政标志等社会经济要素。
二、地理要素之间的基本联系地理环境各要素(大气、水、生物、岩石、土壤、地形)相互联系、相互制约、相互渗透。
1.地形对气候的影响(1)地形→气候类型的复杂性:(如:亚洲、横断山区气候复杂)(2)地形→气候分布:分布范围、分布形态(如:西欧与北美的温带海洋性气候的分布)。
南北走向的山脉对海陆之间的水汽交换有阻碍作用,使沿海地区的气候类型呈狭长带状分布。
如南、北美西海岸。
而东西走向的山脉使气候类型分布向内地延伸,如欧洲温带海洋性气候的分布。
(3)地形→气候特征:→气温:①随海拔升高,气温降低。
产生了“一山有四季,十里不同天”的景观。
在中低纬的高山地区表现尤其明显。
(垂直自然带种类丰富多样)盆地地形:空气不易扩散,盆地底部气温更高(冬季加重暖冬与雾霾)。
如果冷空气进入盆地堆积,易导致气温更低(加剧了寒潮或者冷空气的影响时间,对农业生产极为不利);地形可以阻挡冷空气(我国东西走向的天山、阴山、昆仑山、秦岭等);山区地形:海拔越高,气温越低。
产生了“一山有四季,十里不同天”的景观。
在中低纬的高山地区表现尤其明显。
(垂直自然带种类丰富多样)盆地地形:空气不易扩散,盆地底部气温更高(冬季加重暖冬与雾霾)。
如果冷空气进入盆地堆积,易导致气温更低(加剧了寒潮或者冷空气的影响时间,对农业生产极为不利);地形可以阻挡冷空气(我国东西走向的天山、阴山、昆仑山、秦岭等);背风坡导致气流下沉增温,加剧背风坡的干旱程度,提升了背风坡森林火险等级(焚风效应)。
→降水;①山地迎风坡降水丰沛。
而背风坡形成雨影区,降水稀少。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章地理系统要素关系的主成分分析地理工作者在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域的特征和“职能”,为地理区域类型的划分和制定区域发展战略提供依据。
但由于指标多会增加分析问题的复杂性,能否通过某些线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地理系统进行分析的关键问题。
例如在环境研究中,需要对许多环境要素进行观测;在土地资源研究中,需要对土壤样品进行多指标的分析化验。
而这些要素和指标之间,常存在密切关系,要考察全部要素和测试指标,常常要做大量重复的工作。
例如有30测试指标,也许10多种指标即可代表。
由此可见减少研究的要素,使系统简化,是地理学研究中的重要环节。
事实上,如果复杂的地理系统,不加以任何简化,不抓住对地理系统影响的主要矛盾,要对之进行深入的研究,几乎是不可能的。
本章介绍主成分分析方法就是解决上述问题的数学方法。
§1 主成分分析方法原理主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法,达到降维和去相关目的,既由多个变量变换为少数几个相互独立的综合变量。
主成分分析也称K-L变换。
因子分析不仅可以用来研究变量之间的相关关系,还可用来研究样品之间的相关关系,通常将前者称之为R 型因子分析,后者称之为Q 型因子分析。
假设有n 个地理样本,每个样本观测p 个指标,如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清它们的规律须在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,一个自然的想法是找比较少的综合指标来代表原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较多指标的信息,它们彼此之间又是独立的。
综合指标如何选取呢?通常是取原指标的线性组合,适当调它们的系数,使综合指标之间相互独立且代表性最好。
记原来的变量指标为12,...,p x x x ,综合指标(新综合变量)为12,,...,m z z z (m p ) 即⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m pp p p x l x l x l z x l x l x l z x l x l x l z2211222121212121111 可以要求22212...1k k kpl l l +++= (单位向量)以限制i z 取值大小,利于对比。
系数ij l 由下列原则来决定:(1)i z 与 j z (,,1,2,...,)i j i j m ≠= 互相无关(独立); (2)1z 是12,...,p x x x 的一切线性组合中方差最大者;2z 为与1z 不相关的12,...,p x x x 的所有线性组合中方差最大者;…m z 为与121,,...,m z z z -都不相关的12,...,p x x x 的所有线性组合中方差最大者。
12,,...,m z z z 分别称做原指标的第一,第二,…,第m 个主成分。
1z 在总方差中占的比例最大,其余主成分2,...,m z z 所占方差比例依次递减。
从几何上看,找主成分的问题,就是找出p 维空间中椭球体的主轴问题,从数学上容易得到它们是12,...,p x x x 的相关矩阵中m 个较大特征值对应的特征向量。
也就是说寻找这样的坐标系旋转角,使得样本点在新坐标系中对主成分轴上的投影具有极大的方差。
主成分分析的实质就是要求出方差—协方差矩阵的特征向量及其对应的特征值,即要找出方差—协方差矩阵所确定的椭球的主轴,并确定其长度。
由于提取主成分的主要原则是使方差最大,为了排除量纲、数量级的影响,对原始数据先进行标准化处理(标准差标准化),这样方差—协方差矩阵即为相关系数矩阵。
计算步骤:(1) 计算相关系数矩阵R(原始数据已进行标准化处理变换,也就是方差—协方差矩阵) (2) 计算特征值和特征向量 0I R λ-=求出特征值,按大小排序12...0;p λλλ≥≥≥≥然后,求出对应的特征向量12,,...,Ti i i ip l l l l ⎡⎤=⎣⎦ i=1,2,…,p(3) 计算主成分贡献率和累积贡献率 可以证明:1z 的方差等于1λ; 2z 的方差等于2λ; …p z 的方差等于p λ;主成分i z 的贡献率 1pi kk λλ=∑ i=1,2,…,p累积贡献率11pm k kk k λλ==∑∑一般取累积贡献率达85-90%的特征值12,,...,m λλλ ()m p ≤对应的主成分即可。
(4) 计算主成分载荷(,)k i p z x =(i=1,2,..,p;k=1,2,…,m )ik p 是主成分k z 与变量i x 之间的相关系数(5) 计算主成分得分**22*11*2*222*1212*1*212*1111pmp m m m pp p p x l x l x l Z x l x l x l Z x l x l x l Z +++=+++=+++=*i x 是i x 标准差标准化后的数据得到主成分得分矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m Z Z Z Z Z Z Z Z Z 212222111211主成分几大性质:性质1:主成分的协方差矩阵对角阵性质2:主成分的总方差等于原始变量的总方差:性质3:(,)k i p z x =(i=1,2,..,p;k=1,2,…,m )ik p 是主成分k z 与变量i x 之间的相关系数§2 因子分析法对p 个变量进行因子分析的目的是研究它们有哪些共同因素,哪些是特殊因素,这些因素在变量分析中起什么作用。
为研究方便,设着p 个变量已进行标准差标准化变换,记为12,,...,p x x x ,或表示为向量形式12(...)p X x x x '=。
上述的p 个因子(变量)会有一些共同因素,这些共同因素称为公共因子,记为12,,...,m f f f (公共因子数目m 通常要比原因子个数p 要少),也可记为向量形式12(...)m F f f f '=。
对每一因子,除了可以有一些公共因素的部分外,还有一些自身特殊因素,称为特殊因子。
因而因子模型可表示为下面形式:对第k 个因子k x 有1122...k k k km m k x a f a f a f u =++++式中12,,...k k km a a a 称为m 个公共因子的荷载,k u 为第k 个因子的特殊部分。
U 为特殊因子向量,记为12(...)p U u u u '=因子模型的向量形式为 X A F U=+ 式中矩阵A 为因子荷载,记为111212122212..........................m m p p pm a a a a a a A a a a ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ 为求得矩阵A ,对模型还要作些假定(样本容量为n ): (1)公共因子部分与特殊因子部分是无关的110FU UF n n''== (2) 公共因子是标准化变量,不同公共因子之间无关,即公共因子之间的协方差矩阵为单位阵1FF I n'= (3) 各特殊因子之间是无关的,第k 个特殊因子的方差为2kk c ,它们的协方差阵为C 1UU C n'=在上述假定下,p 个变量之间的相关阵可表为由上述假定R AA C '=+上述矩阵中的第k 行第k 列元素为212kk mj kj kk c a r +=∑=该式表明第k 个变量的方差可表示为公共性部分的方差和特殊性部分的方差之和。
记公共性部分的方差为221mkkj j h a ==∑ 2k h 称为第k 个变量的公共性,它反映了第k 个变量被公共因子所解释的那部分方差。
从几何意义上来说,因子模型中的因子荷载kj a 可看成为第k 个变量在m 个公共因子空间中第j 个因子轴上的投影,变量数据可看成为在该空间中的一个向量;2k h 可看成为第k 个变量在该空间中的向量长度的平方。
k x 作了标准化处理,k x 与j f 的协方差cov(,)k j x f 就是第k 个变量与第j 个公共因子之间的相关系数kj r 。
即11cov(,)cov ,cov ,cov(,)m k j ki i k j i m ki i j k j i kjx f a f f a f f f a εε==⎡⎤=+⎢⎥⎣⎦⎡⎤=+⎢⎥⎣⎦=∑∑由以上假定得知,cov(,)k j k j x f kj x f r a ==经常地,对F 进行正交变换后,得到新矩阵的各分量仍然不相关,各自方差仍然为1(斜交变换后不能保证各分量独立性,各自方差也不为1)。
旋转以后得到的因子,有时它的实际意义比较明显。
例如,可经旋转变换,使得荷载矩阵中的每一行的数值尽可能两极化(接近1或0),这样有利于发现公因子的实际意义。
例子: 以各个城市第三产业发展水平评价为例: 选用20个指标:1x :人口数 2x :GDP 3x :第三产业增加值 4x :货用总量 5x :批、零、贸商品销售总额 6x :外贸收购总额 7x :年末银行贷款总额 8x :社会零售的物价指数 9x :实际利用外资 10x :万名职工中科技人员的人数 11x :旅游外汇收入 12x :第三产业就业比例 13x :邮电业务总量14x :职工人均工资 15x :人口数人均居住面积 16x :用水普及率 17x :煤气普及率18x :人均道路面积 19x :人均公共绿地面积 20x :政策体制对上述指标进行因子分析,从旋转后因子荷载矩阵来看,五个因子意义比较明确,也就是将五个因子分成五大类: 1、 第三产业的基本经济因子1x 2x 3x 4x 5x 6x 7x 9x 11x 12x 13x2、 基础环境因子15x 16x 17x 18x 19x3、 政策性因子8x 14x 20x4、 人员素质因子10x5、 补充因子§3 典型相关分析典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
它能够揭示出两组变量之间的内在联系。
一元统计分析中,(偏)相关系数来衡量两个随机变量的线性相关关系;用复相关系数来衡量一个随机变量与多个随机变量的线性相关关系。
不能用于研究两组变量之间相关关系。
比如生理指标与训练指标的关系、居民生活环境与健康状况的关系、人口统计变量与消费变量之间的关系等。
典型相关分析由霍特林提出,其基本思想与主成分分析非常相似。
首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。
然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的相关性被提出完毕为止。