主成分分析课程设计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x7
478.42 570.84 364.91 281.84 287.87 330.24 360.48 317.61 720.33 429.77 575.76 314.00 535.13 509.39 371.62 421.31 523.52 492.60 1082.82 587.02 312.93 438.41 430.36
x8
457.64 305.08 188.63 212.10 192.96 163.86 147.76 152.85 462.03 252.54 323.36 151.39 232.29 160.12 211.84 165.32 182.52 226.45 420.81 218.27 279.19 225.80 223.46
6
四 、 用 SPSS 对 上 述 分 析 进 行 检 验
1、将问题描述中的 31 个数据导入 SPSS 软件中,截图如图 1 所示
2、对以上数据用 SPSS 进行数据分析 表 1 描述统计量
N 统计量 食品 衣着 家庭设备及服务 医疗保健 交通和通讯 娱乐教育文化服务 居住 杂项商品及服务 有效的 N (列表状态) 31 31 31 31 31 31 31 31 31 统计量 1980.6603 489.0732 395.9855 244.3603 311.0184 569.5716 430.3703 243.0452 均值 标准误 105.40787 21.63464 32.31615 15.50947 23.01261 34.03690 30.19947 15.81536 标准差 统计量 586.88616 120.45658 179.92872 86.35310 128.12878 189.50946 168.14352 88.05622 方差 统计量 344435.368 14509.787 32374.343 7456.858 16416.985 35913.837 28272.243 7753.898
根据多元统计分析的原理和方法, 借助 SPSS 软件, 对我国各地区城镇居民消 费性注册问题进行了主成分分析,并讨论和研究分析过程中出现的问题,最后对 结果进行了统计分析和解释。
题目分析,总体设计,算法设计,编程与调试,结果分析。
1 月 1 日——题目分析; 工 作 计 划 1 月 2~4 日——总体设计; 1 月 5~8 日——算法设计与编程,调试和结果分析; 1 月 9~10 日——撰写课程设计说明书。
x3
749.41 697.33 362.37 290.15 254.83 246.91 200.49 211.88 893.37 572.40 689.73 271.28 334.12 233.81 550.71 288.55 282.84 401.39 564.56 338.65 202.72 516.21 344.79
5
四、在 R 中的分析
用 R 分析的代码如下: Read.table("E:yang.txt",headwk.baidu.comFALSE)
Library(psych) Principal(r=x,nfactors=2,rotate="none") Principal Components Analysis Call:principal(r=x,nfactors=2,rotate="none",scores=T) Standardized loadings based upon correlation matrix 得到了两个主成分的分析如下 PC1 PC2 X1 0.91 -0.09 X2 0.30 0.87 X3 0.85 0.08 X4 0.72 0.40 X5 0.88 -0.27 X6 0.92 0.03 X7 0.74 -0.58 X8 0.89 0.11 PC1 PC2 SS loadings 5.10 1.35 Proportion Var 0.64 0.17 Cumulative Var 0.64 0.81 可用 fa.parallel()函数得到其碎石图如下
346.11 407.70 269.59 469.10 249.66 288.56 228.73 344.85
191.48 330.95 389.33 191.34 228.19 236.51 195.93 214.40
问题:结合两个表格,对数据进行主成分分析。
二、问题分析
运用主成分分析法,讨论全国 31 个省、直辖市和自治区的城镇居民消费结 构,并建立对应的消费函数模型,进而分析消费结构的地区差异及原因。最后提 出消费结构升级过程中的不足,衔接好产需关系,并提出合理的政策性建议。 首先用 SPSS 软件进行主成分分析法中的因子分析,利用降维的思想将所选 取的城镇居民消费支出的 8 项指标中选出相关性较高的两个主成分; 其次通过系 统聚类,将 31 个选取观测的地区,通过能够度量它们之间相似程度的统计量, 将其划分,把相似程度较大的地区聚合为一类,以此类推直到把所有的地区都聚 合完毕,终将选取的 31 个地区分成了四类且重新定义四个类别,并且对地区进 行差异分析。
7
杂项商品及服务 提取方法:主成份分析。
1.000
.813
表 3 解释的总方差
解释的总方差 初始特征值 成份 1 2 3 4 5 6 7 8 合计 5.098 1.352 .575 .406 .281 .122 .093 .073 方差的 % 63.721 16.903 7.184 5.079 3.516 1.528 1.158 .910 累积 % 63.721 80.625 87.809 92.887 96.403 97.932 99.090 100.000 合计 5.098 1.352 提取平方和载入 方差的 % 63.721 16.903 累积 % 63.721 80.625
x6
1141.82 735.97 540.58 414.72 463.09 445.20 459.62 376.82 1034.98 585.23 795.87 513.18 461.67 393.99 599.43 337.76 617.74 697.22 873.06 621.74 477.17 730.05 575.10
1. 汪冬华. 多元统计分析与 SPSS 应用,华东理工大学出版社,上海:2011; 参 考 资 料 2. 杨维忠. SPSS 统计分析与行业应用,清华大学出版社,北京:2011; 3. 罗志辉. SPSS19 统计分析教程,电子工业出版社,北京:2013; 4. 何晓群. 多元统计分析,高等教育出版社,北京:2013; 5. 谢中华. MATLAB 统计分析与与案例分析,清华大学出版社:北京:2012。 指导教师签字 系主任签字
地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川
x1
2959.19 2459.77 1495.63 1406.33 1303.97 1730.84 1561.86 1410.11 3712.31 2207.58 2629.16 1844.78 2709.46 1563.78 1675.75 1427.65 1783.43 1942.23 3055.17 2033.87 2057.86 2303.29 1974.28
153.32 249.54 209.11 259.51 219.86 303.00 317.32 235.82
254.66 290.84 379.30 230.61 206.65 244.93 251.08 250.28
445.59 561.91 371.04 490.90 449.69 479.53 424.75 541.30
成绩:
3
一、问题描述
1999 年全国 31 个省、直辖市和自治区(港、澳、台不在其中)的城镇居民 家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是:
x1 :食品
x2 :衣着 x3 :家庭设备用品及服务 x4 :医疗保健
x5 :交通和通讯
x6 :娱乐教育文化服务 x7 :居住 x8 :杂项商品和服务
将数据进行主成分分析(因子分析) 表 2 公因子方差
公因子方差 初始 食品 衣着 家庭设备及服务 医疗保健 交通和通讯 娱乐教育文化服务 居住 1.000 1.000 1.000 1.000 1.000 1.000 1.000 提取 .828 .848 .723 .683 .839 .841 .875
x4
513.34 302.87 285.32 208.57 192.17 279.81 218.36 277.11 346.93 211.92 435.69 126.33 160.77 107.90 219.79 208.14 201.01 206.06 356.27 157.78 171.79 236.55 203.21
三、对应的多元统计分析原理
1、要求对各地区的消费结构进行分析,而题设条件中,已知数据繁多,如果直 接分析 31 个省的消费结构,分析过程将会很复杂,而且分析步骤琐碎。而由统 计学思想可知,主成分分析是一种对数据进行降维分析的方法,但包含原数据的 大部分信息。 其核心是设法将原来众多具有一定相关性 (比如 P 个指标) 的指标, 重新组合成一组新的互相无关的综合指标来代替原来的指标。 通常数学上的处 理就是将原来 P 个指标作线性组合, 作为新的综合指标。 最经典的做法就是用 (选 取的第一个线性组合,即第一个综合指标)的方差来表达,即 Var( F1 ) 越大,表 示 F1 包含的信息越多。因此在所有的线性组合中选取的 F1 应该是方差最大的, 故称 F1 为第一主成分。 如果第一主成分不足以代表原来 P 个指标的信息, 再考虑 选取 F2 即选第二个线性组合,为了有效地反映原来信息, F1 已有的信息就不需 要再出现在 F2 中,用数学语言表达就是要求 Cov( F1 , F2 ) 0 ,则称 F2 为第二主 成分,依此类推可以构造出第三、第四,……,第 P 个主成分。由此建立了主成 分分析模型,如果仅分析各指标的相关性就会显得消费结构的分析相对简单,为 了完善消费结构的分析。
x2
730.79 495.47 515.90 477.77 524.29 553.90 492.42 510.71 550.74 449.37 557.32 430.29 428.11 303.65 613.32 431.79 511.88 512.27 353.23 300.82 186.44 589.99 507.76
贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆
1673.82 2194.25 2646.61 1472.95 1525.57 1654.69 1375.46 1608.82
437.75 537.01 839.70 390.89 472.98 437.77 480.89 536.05
461.61 369.07 204.44 447.95 328.90 258.78 273.84 432.46
课程设计说明书
课程设计:
题目:我国各地区城镇居民消费性支出的主成分分析
1
理学院
学 号 设计题目 设 计 目 的 与 要 求 设 计 具 体 内 容 工 作 量
数学系
学生姓名 专业(班级)
我国各地区城镇居民消费性支出的主成分分析 通过本课程设计进一步熟悉多元统计分析的下列内容: 方差分析;因子分析;主成分分析;聚类分析;回归分析;时间序列分析。 要求能熟练应用 SPSS 软件对实际问题进行多元统计分析。 。
2
课程设计(论文)成绩评定表
学生姓名:
课程设计题目:
学号: 专业班级:
我国各地区城镇居民消费性支出的主成分分析
指导教师评语: 该生在学习期间能够认真钻研教材,积极掌握所学知识,把握教学重点、难点,虚心 好学,能够按照此次要求完成全部任务。此外,该生具备一定的调查能力、研究分析能力, 能够实际动手实践解决问题, 该课程设计需要查阅资料, 并掌握学习运用 SPSS 等相关软件, 该生的报告文字通顺,内容详实,结构合理,符号统一,图标符合规范要求,并得出结论 与心得,总体表现良好。
x5
467.87 284.19 272.95 201.50 249.81 239.18 220.69 224.65 527.00 302.09 514.66 250.56 405.14 209.70 272.59 217.00 237.60 321.29 811.88 329.06 329.65 403.92 240.24