我国东西部发展差异分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

因子分析的基本步骤
确认待分析的原始变量是否适合作因子分析
构造因子变量 利用旋转方法使因子变量具有可解释性 计算每个样本的因子变量得分
原有变量是否适合作因子分析
SPSS提供了四个统计量可帮助判断观测数据是否适合作 因子分析: 1.计算原有变量的相关系数矩阵 如果相关矩阵中的大部分相关系数小于0.3,则不适 合作因子分析; 2.计算反映象相关矩阵 以变量的偏相关系数矩阵为出发点,将偏相关系数矩 阵的每个元素取反,得到反映象相关阵。 如果反映象相关矩阵中的很多元素的绝对值比较大, 则说明这些变量可能不适合作因子分析 注:当原始变量个数较多时,所输出的相关系数矩阵特别 大,观察起来不是很方便,所以一般不会采用这两种方法
F2
F3
X6、X7、X10、 X16
较大正载荷量
X4、X5、X8
因子名称
效益发展因子
农业发展因子
成分得分系数矩阵
第一个主成分 =0.115*标准 化的国内生产 总值-0.089* 标准化第一产 业比例……
各地区的因子得分
各地区因子得分表
wk.baidu.com
结果分析---工业发展因子分析
1. 工业发展因子中,整个东部地区明显高于西部地区,广 东和江浙地区排名最高。广东是我国最先实行改革开放的 省份之一,这里企业林立,吸引了大量的其他省份的劳动 力,成为拉动全国GDP增长的主要动力之一; 长江三角洲地区起步较晚,但近几年表现出很强的活力, 而且发展道路也和广东稍有不同,更多走的是技术密集型 道路,每年保持非常高的增长率。 京津沪地区近几年大力发展第三产业,因此工业因子得分 不高。 西部地区在这个银子上明显落后与东部地区。
我国东西部发展差异分析 —因子分析的应用
组员 吉 晶 蒋沂桐 刘瑶尧 胡欢庆 14120710 14120709 14120706 14120708
案例分析意义
改革开放以来,由于政策和区域的因素,我国的东西
部地区的发展速度和规模产生了巨大的差异。我们利用多 元统计中的因子分析法对其进行分析,提取了地区发展的 三个因子:工业发展因子,效益发展因子和农业发展因子 。利用因子得分对不同地区进行排序,解释其原因,分析
特征变量及取值
因子分析法过程
原始数据中根据经济发展的相关因素,选取了16个 特征变量,它们分别是X1(国内上产总值)、X2(第一 产业比例)、X3(第二产业比例)、X4(第三产业比例 )、X5(人均GDP)、X6(人口总数)、X7(从业人口 总数)、X8(人均收入)、X9(工业总产值)、X10(农 林牧副渔总产值)、X11(财政收入)、X12(社会消费 品零售总额)、X13(进出口总额)、X14(固定资产投 资总额)、X15(钢材需求总额)、X16(农用化肥需求 总额) 由于这些特征变量的量纲不同,我们首先对16个变量的观 测值进行标准化
在因子F3中,X6(人口)、X7(从业人口)、X10(农 林牧副渔产值)、X16(农用化肥需求)具有较大的正载 荷,这代表一个地区的增长动力主要取决于人口和农业生 产,走的是粗放型的发展道路,因此是一个典型的农业增 长因子,反映了一个地区农业发展状况。
F1
X1、X3、X9、 X11、X12、X13 、X14 工业发展因子
KMO和Barlett的球形度检验
计算结果-----公因子方差
按照现在默认提取 的主成分的数量, 原始的每一个变量 的信息量被提取的 百分比
这个主成分所携带的信息量相当于平均原先多少个原始变 量的信息量。
可以理解成: 主成分的计算公 式 因子负荷:是第 j个原始变量在 第i个因子上的 负荷 x1=a11F1+a12F2+ …+a1mFm x2=a21F1+a22F2+ …+a2mFm+a2ε2 …… xp=ap1F1+ap2F2+ …+apmFm+apεp
是方程的系数
由于第一个公因子跟16个原始变量关联性都比较大,意义 为综合发展因子。说明分析基本是失败的,说明因子的拆 分没找到一个准确方向,无法予以解释。 接下来 Step1:判断提取三个因子是否适合 Step2:如何让因子解释更完美
利用碎石图检验
旋转——以取得更好的因子解释
确定公因子变量个数--主成分分析
确定m个主成份
1. 特征值:取特征值大于1的主成分; 2. 根据累计贡献率:贡献率在80%~85%,但现实中这个标准 很难达到,所以一般累计贡献率应在70%以上; 3. 通过直观观察碎石图的方式确定主成分的个数。
4. 综合判断,往往根据累计贡献率确定较少,根据特征值λ 确定又较多,应两者结合
结果分析---农业因子分析
在农业因子中,山东、四川、江苏排名最为靠前。 山东省地处华北平原,是我国的农业大省; 四川省又称“天府之国”,盛产粮食; 江浙地区自古以来就是鱼米之乡,是我国稻米的主要产地 。 在这一因子中,广大西部地区同样比较落后,原因在于西 部多山地,不利于农业生产。

我国东西部地区的发展差异,并提出相应对策。
因子分析的数学模型:
数学模型(xi为标准化的原始变量;Fi为因子变量; m<p)
x1=a11F1+a12F2+…+a1mFm+a1ε1 x2=a21F1+a22F2+…+a2mFm+a2ε2 …… xp=ap1F1+ap2F2+…+apmFm+apεp
也可以矩阵的形式表示为: X=AF+aε F: 因子变量 A: 因子载荷阵 aij: 因子载荷 ε : 特殊因子
i
注:因子分析更重要的是因子的可解释性,必要时可保留特征 根小于1的因子;而即使特征根大于1,但无合理解释,也可 舍去。
因子分析的适用条件
样本量与变量数的比例应在5:1以上 1.总样本量不得少于100,原则上越大越好 2.各变量间必须有相关性 a. KMO统计量:0.9最佳,0.7尚可,0.6很差,0.5以 下 放弃; b. Bartlett球体检验
结果分析---效益因子分析
效益因子, 京津沪地区明显高于全国,这三个地区的共同特点就是第 三产业相对发达,人均产值和人均收入很高,工农业不再 是经济增长的主要动力。 在这个因子得分中,东部省市明显高于西部。东部省市中 ,江浙地区得分高于广东省,广东省前几年过于依赖廉价 劳动力,在高产出的同时,也消耗了过多的生产资料。 江浙地区一直走的是资金和技术密集型道路,在经济总量 不断取得突破的同时,社会效益也取得了同步发展。
旋转目的:让每个公因子之间的差距尽量的大
对88.5%的信息量进行重新分配。
因子解释
step: 首先分析第一个因子。F1中,X1(国内生产总值)、X3 (第二产业比例)、X9(工业总产值)、X11(财政收入 )、X12(社会消费品)、X13(进出口总值)、X14( 固定资产投资)都具有较大正载荷,这是一个典型的工业 发展因子。 第二个因子F2中,X4(第三产业比例)、X5(人均国内 生产总值)、X8(人均收入)具有较大正载荷,这是一个 典型的第三产业增长因子,代表一个地区走的是集约型发 展道路,因此也可以说是效益因子,反映一个地区经济发 展效益状况。
3.巴特利特球度检验
4.KMO检验
Bartlett球体检验的目的是检验相关矩阵是否是单位矩 阵,如果是单位矩阵,则认为因子模型不合适。Bartlett球 体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该 假设的话,就表明数据不适合用于因子分析。一般说来, 显著水平值越小(<0.05)表明原始变量之间越可能存在 有意义的关系,如果显著性水平很大(如0.10以上)可能 表明数据不适宜于因子分析。 KMO测度的值越高(接近1.0时),表明变量间的共 同因子越多,研究数据适合用因子分析。 通常按以下标准解释该指标值的大小:KMO值达到 0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6 ~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5 时,表明样本偏小,需要扩大样本。
相关文档
最新文档