旅游统计学 第八章 主成分分析
主成分分析PPT
主成分的方差贡献率
主成分分析把P个原始变量X1,X2,… XP的总方差分 解成P个不相关的变量Y1,Y2,… YP的方差之和 。 主成分分析的目的是减少变量的个数,所以一般不会使 用所有P个主成分,忽略一些带有较小方差的主成分将 不会给总方差带来太大的影响。 p
p k 1 k
k 称: 为主成分YK的贡献率;第一主成分的 k 1 贡献率最大,这表明Y1综合原始变量的能力最强,而Y2, Y3,… YP等的综合能力依次递减。若只取 m p 个主 p m 成分,则称:m k k
下面,我们根据表给出的数据,对某农业 生态经济系统做主成分分析。
表1 某农业生态经济系统各区域单元的有关数据
人均耕 森林覆 经济作物占农 耕地占土地 果园与林 样本 人口密度 农民人均纯收入 人均粮食产量 地面积 盖率 作物播面比例 面积比率 地面积之 -1 -1 序号 x 1 /(人.km-2 ) x /(元.人 ) x /(kg.人 ) 4 5 x 6 /% x 7 /% 比x 8 /% x 2 /hm2 x 3 /% 1 2 3 4 5 363.912 141.503 100.695 143.739 131.412 0.352 16.101 1.684 24.301 1.067 65.601 1.336 33.205 1.623 16.607 192.11 1 752.35 1 181.54 1 436.12 1 405.09 295.34 452.26 270.12 354.26 586.59 26.724 32.314 18.266 17.486 40.683 18.492 14.464 0.162 11.805 14.401 2.231 1.455 7.474 1.892 0.303
主成分分析( Principal Components Analysis ) 和因子分析(Factor Analysis)就是把变量维数降 低以便于描述、理解和分析的方法。 主成分分析也称为主分量分析,是一种通过降维 来简化数据结构的方法:如何把多个变量化为少数 几个综合变量(综合指标) ,而这几个综合变量可 以反映原来多个变量的大部分信息,所含的信息又 互不重叠,即它们之间要相互独立,互不相关。 这些综合变量就叫因子或主成分,它是不可观测的, 即它不是具体的变量(这与聚类分析不同),只是 几个指标的综合。 在引入主成分分析之前,先看下面的例子。
旅游统计学教学课件
四、组中值:各个组的中点数值
组中值 上限 下限 2
组中值前 值组的 后组下限 前组下限
2
开口组:缺少下限或上限的组
缺下限的开口组上 组限 中 邻 值组组距 2
缺上限的开口组下 组限 中 邻 值组组距 2
五、分配数列
1、概念:旅游统计工作中按某一标志对统计总体进行划 分,将总体各单位按变量的差异,分配到各个相应的组 中,再按组汇总单位计数,最后开成一个总体各单位分 布在各组的统计数列,称之为分配数列。
2、作用:
(1)反映总体各单位分布的集中趋势,是评价事物的重 要数据;
(2)对同类现象在不同时空条件下的发展水平进行比较;
(3)分析现象之间的依存关系。
3、计算:
(1)简单算术平均数:a
a
n
(2)加权平均数:
a a f fa 1 f1 f a 2 f2 f a n fn f a ff
(3)调和平均数:
指数量上不能直接相加的总体。 二、统计指数的作用:
1、综合反映事物的变动方向和变动程度; 2、进行因素分析; 3、研究事物在长期内的变动趋势。
三、分类:
1、按照所反映的对象范围不同分:个体指数和总指数; 2、按照表明的数量特征分:数量指标指数和质量指标指 数;
3、按计算方法不同分:简单指数和加权指数; 4、按比较对象或编制的任务不同分:时间指数和地区指 数;
第二节 旅游统计的综合指标 一、总量指标
1、概念:在一定时间、地点条件下表明某种旅游经 济活动的总规模或总水平的指标,其表现形式为绝对数。
2、分类: 按其所反映的内容不同分:总体单位总量指标与总 体标志总量指标; 按其所反映的时间状况不同分:时点指标与时期指 标。 3、计量单位 实物单位(自然计量单位、度量衡单位、复合单位) 劳动单位 货币单位
主成分分析课件ppt课件
•§1 主成分分析的基本思想与理论 •§2 主成分分析的几何意义 •§3 总体主成分及其性质 •§4 样本主成分的导出 •§5 有关问题的讨论 •§6 主成分分析步骤及框图 •§7 主成分分析的上机实现
2020/5/28
11
主成分分析
主成分分析(principal components analysis)也称主分量 分析,是由霍特林(Hotelling)于1933年首先提出的。主成 分分析是利用降维的思想,在损失很少信息的前提下把多个 指标转化为几个综合指标的多元统计方法。通常把转化生成 的综合指标称之为主成分,其中每个主成分都是原始变量的 线性组合,且各个主成分之间互不相关,这就使得主成分比 原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更 容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时 使问题得到简化,提高分析效率。本章主要介绍主成分分析 的基本理论和方法、主成分分析的计算步骤及主成分分析的 上机实现。
2020/5/28
1100
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
由第一节的介绍我们知道,在处理涉及多个指标问题的时 候,为了提高分析的效率,可以不直接对 p个指标构成的 p维 随机向量X (X1, X 2 , , X p )'进行分析,而是先对向量 X 进行线
性变换,形成少数几个新的综合变量Y1,Y2, ,YP ,使得各综
2020/5/28
99
目录 上页 下页 返回 结束
§1.2 主成分分析的基本理论
基于以上三条原则决定的综合变量 Y1,Y2, ,YP 分
别称为原始变量的第一、第二、…、第p 个主成分。
基于主成分分析法的省际旅游竞争力研究
基于主成分分析法的省际旅游竞争力研究
现代旅游业是世界经济的重要部门之一,不同省份之间的旅游
竞争力的不同也引起了人们的广泛关注。
在这份研究中,我们采用
主成分分析方法,对中国不同省份的旅游竞争力进行了研究和分析。
首先,我们收集了多个指标作为旅游竞争力的评价标准,包括
旅游资源质量、旅游收入、文化影响力、旅游基础设施、旅游服务
质量等。
通过对这些指标的统计分析,我们可以得出每个省份的得
分情况。
接着,我们使用主成分分析法,将这些指标进行综合评价,将
原始指标转化为新的综合指标,并将这些综合指标进行排序,从而
得出不同省份的综合排名情况。
我们的研究结果显示,中国的旅游竞争力排名前十的省份分别为:北京、浙江、上海、广东、江苏、山东、福建、湖南、四川和
云南。
这些省份的旅游竞争力都相对较强,其中具有相当的特色和
优势。
例如,北京,作为中国的首都,在文化影响力方面具有天然
优势;浙江、上海和广东等省份在旅游基础设施和旅游服务质量方
面有着广泛的优势。
同时,我们也发现,在不同省份的旅游竞争力评价标准中,旅
游资源质量、旅游收入和旅游基础设施等方面的占比相对较大,这
说明这些因素对于一个省份的旅游竞争力具有重要的影响力。
总之,通过对不同省份的旅游竞争力进行主成分分析,我们可
以深入研究这些省份的优劣势和特色,并从中找到提升旅游竞争力
的方法和措施。
这些信息对于推进中国旅游产业的发展具有重要的
意义。
统计分析主成分分析PPT学习教案
3 -.382 .288 .386 .551 -.253
.078
-.038 .584
F1=0.288X1+0.203X2 0.518X3 0.268X4 0.369X5 0.439X6 0.438X7 0.128X8 F2 =0.4X1 0.509X2 0.011X3 0.352X4 0.411X5 0.350X6 0.063X7 0.403X8 F3 = 0.365X1 0.276X2 0.369X3 0.526X4 0.242X5 0.074X6 0.036X7 0.558X8
第9页/共26页
§8 主成分分析
基本思想
如果第一主成分不足以代表原来p个变量的信息,再考 虑选取F2即第二个线性组合。F2称为第二主成分( principal component II)。 F1和F2的关系? 为了有效地反映原来信息,F1已有的信息就不再出现在 F2中,即cov(F1,F2)=0。依此类推,可以获得p个主成 分。因此,这些主成分之间是互不相关的,而且方差依 次递减。在实际中,挑选前几个最大主成分来表征。标 准? 各主成分的累积方差贡献率>80%或特征根>1。
Component
GDP(亿 元 ) 工业 增加 值 总资 产贡 献率 资产 负债 率 流动 资产 周转次 数 工业 成本 费用利 润 率 ( %) 全员 劳动 生产率 产品 销售 率
1 .489 .346 .879 -.455 .627
.746
.744 .217
2 .649 -.827 .018 .571 .667
151.782 28
.000
如果多个变量相互独立或相关性很小,就不能进行
主成分分析。
Kaiser-Meyer-Olkin(KMO)检验:检验变量之间的 偏相关系数是否过小。
8第八章地理系统要素关系的主成分分析
第八章地理系统要素关系的主成分分析地理工作者在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域的特征和“职能”,为地理区域类型的划分和制定区域发展战略提供依据。
但由于指标多会增加分析问题的复杂性,能否通过某些线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地理系统进行分析的关键问题。
例如在环境研究中,需要对许多环境要素进行观测;在土地资源研究中,需要对土壤样品进行多指标的分析化验。
而这些要素和指标之间,常存在密切关系,要考察全部要素和测试指标,常常要做大量重复的工作。
例如有30测试指标,也许10多种指标即可代表。
由此可见减少研究的要素,使系统简化,是地理学研究中的重要环节。
事实上,如果复杂的地理系统,不加以任何简化,不抓住对地理系统影响的主要矛盾,要对之进行深入的研究,几乎是不可能的。
本章介绍主成分分析方法就是解决上述问题的数学方法。
§1 主成分分析方法原理主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法,达到降维和去相关目的,既由多个变量变换为少数几个相互独立的综合变量。
主成分分析也称K-L变换。
因子分析不仅可以用来研究变量之间的相关关系,还可用来研究样品之间的相关关系,通常将前者称之为R 型因子分析,后者称之为Q 型因子分析。
假设有n 个地理样本,每个样本观测p 个指标,如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清它们的规律须在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,一个自然的想法是找比较少的综合指标来代表原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较多指标的信息,它们彼此之间又是独立的。
综合指标如何选取呢?通常是取原指标的线性组合,适当调它们的系数,使综合指标之间相互独立且代表性最好。
记原来的变量指标为12,...,p x x x ,综合指标(新综合变量)为12,,...,m z z z (m p ) 即⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m pp p p x l x l x l z x l x l x l z x l x l x l z2211222121212121111 可以要求22212...1k k kpl l l +++= (单位向量)以限制i z 取值大小,利于对比。
统计学教材-主成分分析法9
因而前三个主成分为:
第一主成分:
第二主成分:
第三主成分:
在第一主成分的表达式中第一、二、三项指标的系数 较大,这三个指标起主要作用,我们可以把第一主成分看 成是由国内生产总值、固定资产投资和居民消费水平所该 划的反映经济发展状况的综合指标; 在第二主成分中,第四、五、六、七项指标的影响 大,且第六、七项指标的影响尤其大,可将之看成是反映 物价指数、职工工资和货物周转量的综合指标; 在第三主成分中,第八项指数影响最大,远超过其它 指标的影响,可单独看成是工业总产值的影响。
主成分分析
一、什么是主成分分析及基本思想
1 、什么是主成分分析 主成分概念首先由Karl parson在1901年引进,不过当 时只对非随机变量来讨论的。1933年Hotelling将这个概念 推广到随机向量: 在实际问题中,研究多指标(变量)问题是经常遇到的,然 而在多数情况下,不同指标之间是有一定相关性。由于指标 较多再加上指标之间有一定的相关性,势必增加了分析问题 的复杂性。主成分分析就是设法将原来指标重新组合成一组 新的互相无关的几个综合指标来代替原来指标,同时根据实 际需要从中可取几个较少的综合指标尽可能多地反映原来指 标的信息。这种将多个
显然当原始变量Xl,…,Xp标准化后,则
实际应用时,往往指标的量纲不同,所以在计算之前 先消除量纲的影响,而将原始数据标准化,这样一来S和 R相同。因此一般求R的特征根和特征向量,并且不妨取 R 只差一个系数,显然 =X ’ X。因为这时的R与 与 的特征根相差n倍,但它们的特征向量
不变,它并不影响求主成分 (2)、主成分的主要性质 性质1 F的协差阵为对角阵A。
2 基本思想
主成分分析就是设法将原来众多具有一定相关性的指标(比 如p个指标),重新组合成一组新的相互无关的综合指标来代替 原来指标。通常数学上的处理就是将原来p个指标作线性组合, 作为新的综合指标,但是这种线性组合,如果不加限制,则可 以有很多,我们应该如何去选取呢?如果将选取的第一个线性 组合即第一个综合指标记F1, 自然希望F1尽可能多的反映原 来指标的信息,这里的“信息”用什么来表达?最经典的方法 就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越 多。因此在所有的线性组合中所选取的F1应该是方差最大的, 故称F1为第一主成分。如果第一主成分不足以代表原来p个指 标的信息,再考虑选取 F 2 即选第二个线性组合,为了有效地 反映原来信息, F1已有的信息就不需要再出现在F2中,用数学
第8章 主成分分析
The principles of Principal Component Analysis (PCA)
X2 (Variable 2)
The original data points, plotted on the original axes of variables (X1, X2, X3) For convenience, we have assumed that the data points are in the shape of a cuboid.
-0.5 C1_H1 C1_H2 OFF-FLAV -1.0 -1.0 RESULT1 ,X-expl : 58%,28% -0.5 0 0.5
C2_H3 C1_H3
PC1 1.0
Map of Samples & Variables
Principal Component Analysis (PCA)
• 12 Jams samples were made from berries plucked in various cultivars and seasonal times. • Several parameters (sensory measurements) were measured on each sample.
1.0 PC2 Bi-plot R.SMELL C4_H3 R.FLAV C4_H2 0.5 C3_H2 SOURNESS C3_H3 SHININES JUICINES C4_H1 0 C3_H1 C2_H1 T HICKNES C2_H2 CHEW.RES BIT TERNE SWEET NES COLOUR REDNESS
Sample comparison according to all 12 variables: multivariate model (PCA)
基于主成分分析的江苏省旅游资源评价
基于主成分分析的江苏省旅游资源评价
江苏省是一个充满活力和魅力的旅游目的地,其拥有众多自然
和人文旅游资源。
为了评价江苏省旅游资源的质量和潜力,可以使
用主成分分析进行评价。
主成分分析是一种多元统计学方法,用于
评价多个变量(例如,旅游资源的数量、质量、可持续性等)之间
的关系。
以下是基于主成分分析的江苏省旅游资源评价步骤:
1. 收集旅游资源数据:收集江苏省各地旅游资源的数据并整理
成表格,其中包括景点数量、景区面积、旅游收入、旅游设施设备、旅游行业人员数量等指标。
2. 标准化数据:将收集到的数据进行标准化处理,使得所有指
标在数值大小上具有可比性。
3. 计算相关系数矩阵:计算各指标之间的相关性,以此来判断
它们是否可以放在同一个因素中。
4. 应用主成分分析:利用主成分分析的方法将各指标分解为多
个因素,并确定主要因素。
这些因素可以描述旅游资源的各个不同
方面,如景区数量、旅游收入等。
5. 解释因素:解释所得到的因素,确定各因素的含义,如是否
代表江苏省的自然景观,或提供了游客的基础设施等信息。
6. 进行因素得分计算:利用因素得分公式,计算出各个因素在
各个区域的得分。
以此评价各地旅游资源的优劣。
7. 编制旅游资源评价报告:根据因素得分计算结果,编制江苏省旅游资源评价报告。
该报告会提供各个区域旅游资源的综合评价和旅游发展方向建议等信息。
通过主成分分析评价,可以更全面和客观地评价江苏省旅游资源的质量和潜力,为江苏省的旅游发展提供科学的决策依据。
基于主成分分析法的城市旅游业发展水平测评
基于主成分分析法的城市旅游业发展水平测评一、引言城市旅游业是中国经济发展中的一个重要支柱产业,也是改善人民生活质量、推动消费升级的重要行业。
为了更好地引导城市旅游产业的发展,需要对城市旅游业发展水平进行测评和评估。
本文基于主成分分析法,对城市旅游业发展水平进行测评和评估。
二、城市旅游业的发展水平1. 定义城市旅游业发展水平可以理解为城市旅游业在一定时间内所取得的发展成果与发展潜力的总和,反映了城市旅游业在经济、社会、文化等多个维度上的发展水平。
2. 影响因素城市旅游业的发展水平受到多种因素的影响,包括经济发展水平、社会文化环境、旅游基础设施建设水平、旅游产品开发能力以及旅游服务水平等。
3. 测评指标城市旅游业的发展水平可以从经济效益、资源保护、旅游基础设施建设、旅游环境、旅游服务质量、旅游产品创新、旅游市场营销等指标进行测评。
三、主成分分析法测评城市旅游业发展水平主成分分析法是一种多维度数据分析的方法,可以将多个指标转化为几个综合指标,简化分析过程,得出更加客观准确的测评结果。
在城市旅游业发展水平的测评中,可以采用主成分分析法进行分析。
1. 数据标准化在进行主成分分析之前,需要将各项指标进行标准化处理,以避免因指标量纲不同而影响分析结果。
标准化可以采用z-score标准化方法,将每个指标的数值减去该指标的平均值,再除以该指标的标准差,得到标准化后的数值。
2. 主成分分析主成分分析可以将多个指标转化为几个综合指标,通过分析各个综合指标的得分情况,得出城市旅游业发展水平的测评结果。
主成分分析可以分为以下几步:(1)计算相关系数通过计算各个指标之间的相关系数,得到各个指标之间的相关关系,以便进行主成分分析。
(2)提取主成分根据主成分的特征值,选取符合条件的主成分作为综合指标。
一般情况下,特征值大于1的主成分可以作为综合指标进行分析。
(3)计算主成分得分通过线性组合,计算得出各个城市在各个综合指标上的得分,从而得出城市旅游业发展水平的测评结果。
主成分分析和因子分析
图 8.1 原始数据的输入
8.1.2.2 统计分析 激活 Statistics 菜单选 Regression 中的 Linear...项,弹出 Linear Regression 对话框(如图
8.2 示)。从对话框左侧的变量列表中选 y,点击 ➢ 钮使之进入 Dependent 框,选 x1、x2, 点击 ➢ 钮使之进入 Indepentdent(s)框;在 Method 处下拉菜单,共有 5 个选项:Enter(全部 入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward (向前法)。本例选用 Enter 法。点击 OK 钮即完成分析。
8.2.1 主要功能
调用此过程可完成下列有关曲线拟合的功能: 1、Linear:拟合直线方程(实际上与 Linear 过程的二元直线回归相同,即 Y = b0+ b1X); 2、Quadratic:拟合二次方程(Y = b0+ b1X+b2X2); 3、Compound:拟合复合曲线模型(Y = b0×b1X); 4、Growth:拟合等比级数曲线模型(Y = e(b0+b1X));
图 8.7 计算结果的保存
返回目录
第三节 Logistic 过程
返回全书目录
8.3.1 主要功能
调用此过程可完成 Logistic 回归的运算。所谓 Logistic 回归,是指应变量为二级计分 或二类评定的回归分析,这在医学研究中经常遇到,如:死亡与否(即生、死二类评定)的 概率跟病人自身生理状况和所患疾病的严重程度有关;对某种疾病的易感性的概率(患病、 不患病二类评定)与个体性别、年龄、免疫水平等有关。此类问题的解决均可借助逻辑回归 来完成。
云南省旅游消费影响因素分析—主成分分析方法
云南省旅游消费影响因素分析小组成员:付显勇王修平一、背景介绍及研究的目的旅游业是以提供服务为主的综合性服务行业,通过提供食、住、行、游、购等服务满足人们对旅游业的需求。
旅游业现已成为全球经济中发展势头最强劲和规模最大的产业之一。
近年来, 中国旅游业一直保持较高的发展速度, 旅游业作为国民经济新的增长点, 在整个社会经济发展中的作用日益显现。
而云南作为中国的旅游大省,旅游业是其新兴支柱产业。
本文的研究对象是云南省的旅游收入,目前学术界对旅游出现了许多不同的定义,一般都是从各个角度给旅游下的定义,这样的定义多达十多种,分别描述了旅游的不同方面。
另外影响旅游的因素也是不计其数,从经济状况、人口、社会结构,到目的地的旅游资源开发、两地交通、两地文化差异,以及国际游的汇率、通胀率和政治环境等诸多因素都会影响旅游。
结合本次案例的实际,由于近十几年我国旅游增长主要集中在国内游方面,并且经济环境、政治环境、旅游资源优势相对稳定,本案例选取的影响因素包括以下几个方面:居民人均可支配收入、入境旅游人数、旅游接待天数、入境旅游者人均天消费额、旅游饭店数、公路里程。
数据的来源均为历年的云南统计年鉴。
旅游属于奢侈品的一种,是人们在物质生活得到满足之后对于精神生活的一种追求。
随着现代旅游学研究规模的不断深入,人们逐渐发现,旅游并不仅仅是一种经济现象,更多的是一种社会文化现象。
旅游活动所涉及的范围之广泛都是以往任何活动都无法比拟的。
随着旅游的快速发展和广泛流行,人们对旅游现象的研究逐渐由经济角度专项奖旅游作为一种复杂的社会现象来研究。
这是旅游学卖出了下载的范畴,开阔了研究视野。
很显然,这些人文方面的影响目前为止是很难用定量分析来进行研究的,例如我们只能研究旅游收入、人数方面的因素,而必须忽略旅游中带个人们美的感受和人文气息的熏陶,因为那些事物无法定量化研究。
二、运用EViews软件分析影响云南省旅游消费收入因素(一)、数据的选择与处理1、影响因素的选择影响云南省旅游消费收入的影响因素有很多, 我们这里选取最重要的几个因素进行分析,包括旅游接待天数(X1)、入境旅游者人均天消费额(x2)、居民人均可支配收入(x3 )、入境旅游人数(x4 )、旅游饭店数(x5)、公路里程(x6)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
制约因素
S1——运输能力不足; S2——资金不足; S3——人力、技术力量(包括技术工人、工程技术人员、
科研人员、教员等)缺乏;
S4——水资源不足; S5——地方乡镇经济不发达; S6——粮食及农副畜产品供应紧张; S7——水污染严重; S8——厂矿建设要占用大部分良田。
方针措施
P1 ——引入国外资金,引进技术; P2 ——国家投资; P3 ——地方集资; P4 ——现有水资源开发节流,合理使用; P5 ——引水; P6 ——开发地下水; P7——发展农业; P8——加强农田基建,提高单产; P9 ——对可能污染环境的厂矿,提前采取措施; P10 ——各省内自行解决人才、技术问题;
r11 r12 r1p
R
r21
r22
r2
p
rp1
rp 2
rpp
rij(i,j=1,2,…,p)为原变量xi与xj的相关 系数,rij=rji,其计算公式为
rij
n
(xki xi )(xkj x j )
k 1
n
n
(xki xi )2 (xkj x j )2
这实际上是一个n个未知数n个方程的齐次线性方程 组,特征向量可看成是它的一个非零解。而此齐次
线性方程组有非零解的充要条件是 A I 0 ,
a11
a12
a21
a22
a1n a2n 0
an1
an2 ann
(称为方阵A的特征方程)
从A的特征方程中解出的 值就是A的特征值。
然后通过求解方程组
(A I )x 0
就可以求出A的特征向量。
① 解特征方程 I R 0,常用雅可比法(Jacobi)求
出特征值,并使其按大小顺序排列 1 2 p 0 ;
雅可比算法主要是通过正交相似变换将一个实对称矩阵 对角化,从而求出该矩阵的全部特征值和对应的特征向
因此,人们会很自然地想到,能否在相关分析 的基础上,用较少的新变量代替原来较多的旧变量, 而且使这些较少的新变量尽可能多地保留原来变量 所反映的信息?
例:对区域进行综合开发与治理。
战略目标 O1 —资源开发区位利用; O2 —发展农工旅游等产业; O3 —改善生态环境,力争达到良性循环。
发展战略
事实上,这种想法是可以实现的,主成分分析 方法就是综合处理这种问题的一种强有力的工具。
主成分分析是把原来多个变量划为少数几个综 合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
主成分分析就是设法将原来指标重新组合成一组新 的互相无关的几个综合指标来代替原来指标。同时 根据实际需要从中可取几个较少的综合指标尽可能 多地反映原来的指标的信息。
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
4.065 4.063 2.645 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.195203125
1 0.658 0.222
x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
主成分分析的实质就是确定原来变量xj(j=1, 2,…,p)在诸主成分zi(i=1,2,…,m)上 的荷载lij(i=1,2,…,m;j=1,2,…,p)。
从数学上可以证明,它们分别是相关矩阵(协方
差矩阵)m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤 (一)计算相关系数矩阵
926.35
295.34 452.26 270.12 354.26 586.59 216.39 291.52
26.724 32.314 18.266 17.486 40.683 8.128 8.135
18.492 14.464 0.162 11.805 14.401 4.065 4.063
2.231 1.455 7.474 1.892 0.303 0.011 0.012
第一节 主成分分析基本原理和计算方法
一、主成分分析的基本原理
假定有n个地理样本,每个样本共有p个变量,构成 一个n×p阶的地理数据矩阵。
x11 x12 x1 p
X
x21
x22
x2
p
xn1
xn 2
xnp
当p较大时,在p维空间中考察问题比较麻烦。为
森林覆 盖率 x 3/%
农民人均纯收入 x 4/(元.人-1)
人均粮食产量 x 5/(kg.人-1)
经济作物占农 作物播面比例
x 6/%
耕地占土地 面积比率 x 7/%
果园与林 地面积之 比x 8/%
灌溉田占耕 地面积之比
x 9/%
1
363.912 0.352 16.101
192.11
2
141.503
量。因此可以用一系列的初等正交变换逐步消去A的非 对角线元素,从而使矩阵A对角化。
② 分别求出对应于特征值 i 的特征向量
ei (i 1,2,, p) ,要求 ei
=1,即
p
ei2j
1,其中eij
表示向量 ei 的第j个分量。
j 1
③ 计算主成分贡献率及累计贡献率
贡献率
i
p
1.684 24.301 1 752.35
3
100.695
1.067 65.601 1 181.54
4
143.739
1.336 33.205 1 436.12
5
131.412
1.623 16.607 1 405.09
6
68.337
2.032 76.204 1540.29
7
95.416
0.801 71.106
z1 l11x1 l12 x2 l1p xp
z2
l21x1
l22 x2
l2 p xp
............
zm lm1x1 lm2 x2 lmp xp
系数lij的确定原则: ① zi与zj(i≠j;i,j=1,2,…,m)相互无关;
② z1是x1,x2,…,xP的一切线性组合中方差最大 者,z2是与z1不相关的x1,x2,…,xP的所有线 性组合中方差最大者;…; zm是与z1,z2,……, zm-1都不相关的x1,x2,…xP,的所有线性组合
中方差最大者。
则新变量指标z1,z2,…,zm分别称为原变量 指标x1,x2,…,xP的第1,第2,…,第m主 成分。
x3 -0.714 -0.035 1 0.07 -0.74 -0.755 -0.93 -0.109
x4 -0.336 0.644 0.07 1 0.383 0.069 -0.05 -0.031
x5 0.309 0.42 -0.74 0.383
1
0.734 0.672 0.098
x6 0.408 0.255 -0.755 0.069 0.734
19 137.761
20 117.612
21 122.781
2.032 0.801 1.652 0.841 0.812 0.858 1.041 0.836 0.623 1.022 0.654 0.661 0.737 0.598 1.245 0.731
76.204 71.106 73.307 68.904 66.502 50.302 64.609 62.804 60.102 68.001 60.702 63.304 54.206 55.901 54.503 49.102
P11——从全国引进人才,引进技术; P12——本地区自行解决人才、技术问题; P13——各省内解决农副畜产品供应问题; P14—— 地方解决粮食供应; P15—— 省内解决粮食供应; P16—— 从全国调入粮食; P17—— 改善公路运输条件,新建公路; P18—— 修建铁路; P19—— 对重点工矿,加强水保工作、水污染治理;
0.011 0.012 0.034 0.055 0.076 0.001 0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092
4.861 4.862 3.201 6.167 4.477 6.165 5.402 5.79 8.413 3.425 5.593 8.701 12.945 12.654 8.461 10.078
第八章 主成分分析
本章主要内容 主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例
问题的提出: 地理系统是多要素的复杂系统。在地理学研究
中,多变量问题是经常会遇到的。变量太多,无疑 会增加分析问题的难度与复杂性,而且在许多实际 问题中,多个变量之间是具有一定的相关关系的。
26.262 27.066 12.489 17.534 22.932 4.861 4.862