多元统计分析案例分析.docx
多元统计分析案例分析
一、对我国30个省市自治区农村居民生活水平作聚类分析1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。
因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。
现从2010年的调查资料中2、将数据进行标准化变换:3、用K-均值聚类法对样本进行分类如下:分四类的情况下,最终分类结果如下:第一类:北京、上海、浙江。
第二类:天津、、辽宁、、福建、甘肃、江苏、广东。
第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。
第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。
从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。
二、判别分析针对以上分类结果进行判别分析。
其中将新疆作作为待判样本。
判别结果如下:从上可知,只有一个地区判别组和原组不同,回代率为96%。
下面对新疆进行判别:已知判别函数系数和组质心处函数如下:判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671Y2=-0.62213Y3=-0.84188计算Y值与不同类别均值之间的距离分别为:D1=138.5182756D2=12.11433124D3=7.027544292D4=2.869979346经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。
完整版本多元统计分析实例汇总
多元统计剖析实例院系 : 商学院学号 :姓名 :多元统计剖析实例本文采集了 2012 年 31 个省市自治区的农林牧渔和有关农业数据 , 经过对对采集的数据进行比较剖析对 31 个省市自治区进行分类 . 选用了 6个指标农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值 , 乡村居民家庭经营耕地面积 .数据以下表 :一. 聚类法设定 4 个群聚 , 采纳了系统聚类法 . 下表为 spss 剖析以后的结果 .聚类表群集组合初次出现阶群集阶群集 1 群集 2 系数群集 1 群集 2 下一阶1 5 7 226.381 0 0 132 2 9 1715.218 0 0 53 22 24 1974.098 0 0 74 1 29 5392.690 0 0 65 2 30 6079.755 2 0 66 1 2 11120.902 4 5 87 4 22 21528.719 0 3 118 1 26 23185.444 6 0 149 12 20 26914.251 0 0 1910 27 31 35203.443 0 0 2011 4 28 50321.121 7 0 2212 11 13 65624.068 0 0 2413 5 25 114687.756 1 0 1714 1 21 169600.075 8 0 2215 8 18 188500.814 0 0 2116 17 19 204825.463 0 0 2117 5 14 268125.103 13 0 2018 3 23 387465.457 0 0 2619 6 12 425667.984 0 9 2320 5 27 459235.019 17 10 2321 8 17 499195.430 15 16 2522 1 4 559258.810 14 11 2823 5 6 708176.881 20 19 2424 5 11 854998.386 23 12 2825 8 10 1042394.608 21 0 2626 3 8 1222229.597 18 25 2927 15 16 1396048.280 0 0 2928 1 5 1915098.014 22 24 3029 3 15 3086204.552 26 27 3030 1 3 6791755.637 28 29 0Rescaled Distance Cluster CombineCASE 0 5 1015 20 25 Label Num +--------- +--------- +--------- +--------- +---------+内蒙 5 -+吉林7 -+云南25 -+-+江西14 -+ +-+陕西27 -+-+ |新疆31 -+ +-+安徽12 -+-+ | |广西20 -+ +-+ +------- +辽宁 6 ---+ | |浙江11 -+----- + |福建13 -+ |重庆22 -+ +--------------------------------- +贵州24 -+ | |山西 4 -+--- + | |甘肃28 -+ | | |北京 1 -+ | | |青海29 -+ +--------- + |天津 2 -+ | |上海9 -+ | |宁夏30 -+--- + |西藏26 -+ |海南21 -+ |河北 3 ---+----- + |四川23 ---+ | |黑龙江8 -+-+ +------------- + |湖南18 -+ +--- + | | |湖北17 -+-+ +-+ +------------------------- + 广东19 -+ | |江苏10 ------- + |山东15 ----------- +----------- +河南16 ----------- +群集成员事例 4 群集1: 北京 12: 天津 13: 河北 14: 山西 15: 内蒙 26: 辽宁 17: 吉林 28: 黑龙江 29: 上海 110: 江苏 111: 浙江 112: 安徽 113: 福建 114: 江西 115: 山东 316: 河南 117: 湖北 118: 湖南 119: 广东 120: 广西 121: 海南 122: 重庆 123: 四川 124: 贵州 125: 云南 126: 西藏 427: 陕西 128: 甘肃 129: 青海 130: 宁夏 131: 新疆 2从 SPSS剖析结果能够获得 , 内蒙 , 吉林 , 黑龙江 , 新疆为第 2族群 , 这一族群的特色是农业收入可能不高 , 可是农民的固定财产 , 和耕地面积特别高 , 农民的充裕程度或许机械化程度较高; 山东是第 3族群 , 这一族群中六个指标都处于较高水平,农林牧渔四项收入都处于较高水平并且农民充裕; 西藏处于第 4族群 , 这是因为 , 西藏人员较少 , 自然条件恶劣 , 可使用耕地少 , 可是 , 因为国家的扶助 , 农民的固定 财产许多 , 农民相对而言比较富裕 ; 大部分省份属于第 1族群 , 这一族群的特色在 于六项指标都没有较为突出的一项, 或许农林牧渔收入的原来就少, 或许是农民 的固然比较辛苦 , 整体的农业收入较高 , 可是农民的收入水平比较低, 固定财产较 少 .三. 鉴别法X 1,X 2,X 3,X 4,X 5,X 6分别代表农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值, 乡村居民家庭经营耕地面积 .剖析事例办理纲要未加权事例N百分比有效31 100.0清除的缺失或越界组代码 0 .0 起码一个缺失鉴别变量 0 .0 缺失或越界组代码还有起码一 0.0个缺失鉴别变量共计 0 .0 共计31 100.0实验结果剖析 :组统计量有效的 N (列表状态)Average Linkage (Between Groups) 均值 标准差 未加权的已加权的1农业总产值 1463.8900 1062.0348625 25.000 林业总产值 118.5768 87.02052 25 25.000 牧业总产值 830.3664 671.10440 25 25.000渔业总产值291.4128346.719022525.000乡村居民家庭拥有生产性固定14432.3400 5287.92950 25 25.000 财产原值乡村居民家庭经营耕地面积 1.5496 .88484 25 25.000 2 农业总产值1582.2975 543.92851 4 4.000林业总产值93.3500 37.71131 4 4.000 牧业总产值1021.3175 372.88255 4 4.000 渔业总产值38.3500 27.49067 4 4.000 乡村居民家庭拥有生产性固定30226.4175 4233.77839 4 4.000 财产原值乡村居民家庭经营耕地面积9.4975 3.30626 4 4.000 3 农业总产值3960.6200 . a 1 1.000林业总产值107.0100a1 1.000 .牧业总产值2285.9200 . a 1 1.000 渔业总产值1267.0700 . a 1 1.000 乡村居民家庭拥有生产性固定19168.1400 . a 1 1.000 财产原值乡村居民家庭经营耕地面积 1.6400 . a 1 1.000 4 农业总产值53.3900 . a 1 1.000林业总产值 2.5600 . a 1 1.000牧业总产值59.0200a1 1.000 .渔业总产值.2200 . a 1 1.000乡村居民家庭拥有生产性固定52935.0700 . a 1 1.000财产原值乡村居民家庭经营耕地面积 1.8900 . a 1 1.000 从表上能够看出 , 组均值之间差值很大 . 各个分组 , 在 6 项指标上均值有较明显的差别 .组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值乡村居民家庭经营耕地面积.190 38.263 3 27 .000 由表中能够知道 ,13456 指标之间的 sig 值较小 ,2 指标 sig 值有 0.561 较大 ,可是仍说明接受原假定 , 各指标族群间差别较大 .汇聚的组内矩阵农业总产值林业总产值牧业总产值渔业总产值有关性农业总产值 1.000 .449 .895 .400 林业总产值.449 1.000 .489 .481牧业总产值.895 .489 1.000 .294渔业总产值.400 .481 .294 1.000乡村居民家庭拥有生产性固定-.093 -.262 -.052 -.040财产原值乡村居民家庭经营耕地面积.056 -.033 .181 -.104汇聚的组内矩阵乡村居民家庭拥有生产性固定资乡村居民家庭经产原值营耕地面积有关性农业总产值-.093 .056林业总产值-.262 -.033牧业总产值-.052 .181渔业总产值-.040 -.104乡村居民家庭拥有生产性固定 1.000 .326财产原值乡村居民家庭经营耕地面积.326 1.000从表中能够知道 , 查验结果 p 值>0.05, 此时 , 说明协方差矩阵相等,能够进行 bayes 查验 .Fisher剖析法协方差矩阵的均等性的箱式查验对数队列式AverageLinkage(BetweenGroups) 秩对数队列式1 6 61.1252 . a . b3 . c . b4 . c . b汇聚的组内 6 62.351打印的队列式的秩和自然对数是组协方差矩阵的秩和自然对数。
多元统计分析案例分析(2)
一、对我国30 个省市自治区农村居民生活水平作聚类分析1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况发展考察。
因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。
现从2022年的调查资料中抽取30个样本,指标数据如下:农村居民生活消费支出合计〔元〕9254.84936.73844.93663.94460.84489.54147.44391.2 10210.56542.98928.94013.35498.33911.64807.23682.24090.84310.45515.63455.3农村私营企业就业人数〔万人〕153.98.080.951.718.499.521.242.8258.4569.8398.3105.9113.1173.2273.6137.766.4104.5124.489.0 农村居民家庭人均纯收入〔元〕132621007559584736553069086237621113978911811303528574275789699055245832562278904543农产品价格指数〔上年=100〕98.27 103.0399.70 100.4399.83 102.90 103.7798.07 102.2399.92 100.2599.0898.0496.81 101.2399.0796.3090.6194.9589.25耕地面积2022〔万公顷〕231.7441.16317.34055.87147.24085.35534.611830.1244.04763.81920.95730.21330.12827.17515.37926.44664.13789.42830.74217.5 农村居民消费水平〔元〕1288678143867450044865739466345361360981969878444768794397573340614758451358803561农村住宅投资〔亿元〕93.0448.31441.75168.7133.17162.0571.65126.452.12284.55513.75412.48176.35236.53566.90729.47210.06298.41337.44248.80地区XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX数据来源: ?中国统计年鉴 2022?.2、将数据发展标准化变换:农村居民生活消费支出合计〔元〕2.53 0.15 -0.46 -0.56 -0.12 -0.10 -0.29 -0.153.06 1.04 2.35 -0.36 0.46 -0.42 0.08 -0.55 -0.32 -0.20 农村居民家庭人均纯收入〔元〕2.37 1.30 -0.07 -0.48 -0.21 0.25 0.02 0.01 2.60 0.98 1.71 -0.30 0.42 -0.13 0.27 -0.22 -0.11 -0.18农产品价格指数〔上年=100〕0.09 1.33 0.47 0.65 0.50 1.30 1.52 0.04 1.12 0.52 0.61 0.30 0.04 -0.28 0.86 0.30 -0.42 -1.89农村居民消费水平〔元〕2.82 0.92 -0.56 -0.33 -0.33 0.14 -0.26 -0.313.09 1.06 1.69 -0.35 0.57 -0.36 0.14 -0.49 -0.23 -0.32 农村私营企业就业人数〔万人〕 0.37 -0.78 -0.21 -0.44-0.70 -0.06 -0.68 -0.51 1.20 3.66 2.31 -0.01 0.05 0.52 1.32 0.24 -0.32 -0.02农村住宅投资〔亿元〕-0.67 -0.91 1.24 -0.25 -0.99 -0.29 -0.78 -0.48 -1.16 0.38 1.64 1.08 -0.21 0.12 1.93 2.82 -0.03 0.46耕地面积 2022 〔万公顷〕-1.36 -1.29 0.84 0.02 1.15 0.03 0.56 2.84 -1.36 0.28 -0.75 0.63 -0.97 -0.42 1.28 1.43 0.24 -0.07地区XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XXXX 101.91 26.22 3846 3446.2 5275 727.5 5.3 XX 88.99 80.12 3652 3624.6 5277 2235.9 36.7675 XX 96.94 456.10 4748 3897.5 5087 5947.4 140.3 XX 96.11 137.22 2926 2852.5 3472 4485.3 25.4 XX 96.50 158.97 3603 3398.3 3952 6072.1 41.3XX 95.83 151.79 3683 3793.8 4105 4050.3 1.7 XX 100.22 97.33 2975 2942.0 3425 4658.8 22.0 XX 94.61 63.63 3684 3863 542.7 10.5 11.4 XX 99.39 29.51 3894 4675 1107.1 43.6 16.7 XX 92.87 79.35 3590 3457.9 4643 4124.6 18.73、用K-均值聚类法对样本发展分类如下:聚类成员案例号地区聚类距离12 3 4 5 6 7 8 910111213141516171819 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX12343233121324333421069.193060.35920.651506.42577.122453.891487.955006.412094.382853.423015.141204.491612.461880.402088.551282.272230.152053.351119.98XX -0.77 0.67 0.19 0.47 0.57 -0.42 0.14 XX -2.24 0.19 -0.68 -0.67 -0.54 0.08 -0.14 XX 1.04 -1.03 -0.57 -0.68 -0.30 -1.18 -0.81 XX -2.31 -0.74 -0.64 -0.58 -0.30 -0.64 -0.56 XX -0.25 1.32 -0.23 -0.43 -0.36 0.71 0.26 XX -0.46 -0.42 -0.92 -1.00 -0.90 0.18 -0.65 XX -0.36 -0.31 -0.66 -0.70 -0.74 0.75 -0.52 XX -0.54 -0.34 -0.63 -0.48 -0.69 0.02 -0.83 XX 0.60 -0.64 -0.90 -0.96 -0.92 0.24 -0.67 XX -0.85 -0.83 -0.63 -0.45 -1.88 -1.44 -0.76 XX 0.39 -1.01 -0.55 0.00 -1.69 -1.43 -0.71 XX -1.30 -0.74 -0.67 -0.67 -0.51 0.05 -0.70分四类的情况下,最终分类结果如下:第一类:、XX、XX。
多元统计分析报告整理版.doc
1、主成分分析的目的是什么?主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大局部信息的综合指标,从而使进一步研究变得简单的一种统计方法。
它的目的是希望用较少的变量去解释原始资料的大局部变异,即数据压缩,数据的解释。
常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进展适当的解释。
2、主成分分析根本思想?主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。
同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。
● 设p 个原始变量为 ,新的变量(即主成分)为 , 主成分和原始变量之间的关系表示为?3、在进展主成分分析时是否要对原来的p 个指标进展标准化?SPSS 软件是否能对数据自动进展标准化?标准化的目的是什么?需要进展标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导致主成分偏差较大,所以要进展数据标准化; 进展主成分分析时SPSS 可以自动进展标准化;标准化的目的是消除变量在水平和量纲上的差异造成的影响。
求解步骤⏹ 对原来的p 个指标进展标准化,以消除变量在水平和量纲上的影响 ⏹ 根据标准化后的数据矩阵求出相关系数矩阵 ⏹ 求出协方差矩阵的特征根和特征向量⏹ 确定主成分,并对各主成分所包含的信息给予适当的解释版本二:根据我国31个省市自治区2006年的6项主要经济指标数据,表二至表五,是SPSS 的输出表,试解释从每X 表可以得出哪些结论,进展主成分分析,找出主成分并进展适当的解释:〔下面是SPSS 的输出结果,请根据结果写出结论〕 表一:数据输入界面p 21p x x x ,,, 2121p y y y ,,, 21表二:数据输出界面a〕此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。
观察各相关系数,假如相关矩阵中的大局部相关系数小于,如此不适合作因子分析。
多元统计分析案例
一.搜集的必要性消费是实现国民经济良性循环的关键,而消费结构是否合理,又是消费的关键问题。
考察消费结构是研究和衡量居民消费水平,生活质量的一条重要的途径,可以从侧面反映一国宏观经济发展的基本状况,是联合国划分一国经济发展阶段的重要手段之一。
改革开放以来,我国的经济政治体制改革直接影响了农村居民生活水平及消费结构。
二提出使用的多元消费结构是一种客观存在,消费结构的分类则是人们主观的产物,可以根据实际需要对消费结构进行不同的分类,消费结构首先可以分为宏观消费结构与微观消费结构两个类型。
宏观消费结构是指我国考察的消费资料最终实现的分布,如个人消费与公共消费各自所占的比重,个人消费与社会集团以及社会集团各自的比重,各地区和城乡居民消费各自的比重。
微观消费结构是从单个家庭和个人着眼考察的消费结构,是指居民生活消费内容的组成方式,是宏观消费的基础。
三.进行选定多元统计方法的研究设计和实现的步骤因子分析的基本思想是通过对变量的相关系数矩阵的内部结构进行分析,从中找出少数几个能够控制员是变量的因子,建立因子分析模型,利用公共因子再现原始变量之间的相关关系,达到简化变量,降低变两位数和对原始变量在解释及命名的目的。
设有m个原始变量,表示为x1,x2,…,xm,根据因子分析的要求,假设这些变量已经标准化(均值为0,标准差为1),假设m个变量可以由n个因子f1,f2,…,fn表示为线性组合,即:x1=a11f1+a12f2+…+a1nfn+ε1x2=a21f1+a22f2+…+a2nfn+ε2…xm=am1f1+am2f2+…+amnfn+εm上式为因子分析的数学模型,如果利用矩阵形量向量,它的每一个分量表示一个指标或变量;F称为因子向量,每一个分量表示一个因子,由于它们出现在每个原始变量的线性表达式中,所以又称为公共因子;矩阵A为因子载荷矩阵,其元素aij称为因子载荷;ε称为特殊因子,表示原始变量中不能由因子解释的部分,均值为0。
多元统计分析实例
多元统计分析实例院系: 商学院学号: 姓名:多兀统计分析实例本文收集了 2012年31个省市自治区的农林牧渔和相关农业数据,通过对对 收集的数据进行比较分析对31个省市自治区进行分类•选取了 6个指标农业产值 林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农 村居民家庭经营耕地面积. 数据如下表: 江 区 京津北H 蒙宁林龙海苏江徽建西东南北南东西南庆川州南藏西肃海夏牘地北天河山内辽吉黒上江浙安福江山河湖湖广广海重四贵77西陕甘青宁新农业总产值 林业驰产{牧业总产懾业总产侬村居民家庭拥有生产性[5166.2954.83 154.16 12 98 12767. 09 0・5195.^9 £ 79 105. 01 61, 66 17508. 57 1. 58 3095.29 77.88 1747. 66 1?7. 74 17904. S3 1789847-41 79, 07 298. 83 8. 42 ^808. 38 2.51171.-57 97. 7G U1S. 86 26. 08 293曲.旳 10. 4 1539.65128. 68 16ZL 23 618. 74 249^7. 92 3. 781166.ES90. 1 1130. 36 34. 14 24937. SB S. 272315. 64 134. 51350. 63 77. 92 31507. 91 13. 56171.48 9.5572. 59 57. 45 4146. 13 0. 262966.72 99. 75 1226,18 1235.4 14541. 03 L251229.36 142.14 549. 01 687. 05 22747. 33 6 541867.64 209. 5 1119.73 334. 43 15134. 35 1. 391263.71 256. 45 48L 28 p03. 36 11821. 38 731003.21 228. 91 752. 63 333. 06 gggg. 31 L 57 39&0.储 107.01 22S5. 92 1267. 07 19168.14 L &4 3958.^5 140. 85 2255. 61 SS.4 12980. 72 1. &2 2488. 06 100.05 1334, X 626, 23 10813. 13 1. 71 2651.69 259. 97 1488. 58 279. 94 3904. 32 1. 22 2229. 27222.74 1134.14 914. 05 8516. 72 0.53 1724 245. 56 1072. 77 331. 74 11851. 56 L 37 4S0. 72 137.85 214. 14 236.27 11387. 06 0. 83 341.51 43.48 453. 9 44. 99 122S5. 74 L 29 2764- 9 151. 52269. 86 163. 77 13759.17 1.14364. 54.19421. 55 28. 21 11957. 31 L 181398.17225. S3 912. 97 63.1 19020. 92 1.. 6 53.39 2” 56 59. 02 0. 22 52935. 07 L 891526.23 58. 44 598. 72 14. 61 12273. 06 L 52984,24 20. 07 231. 72 1,8 1$486. 44 2. 72 117-09 4.57 137. 08 0. 56 21919.甜 L 33 240, 4&9・77 105, 72 13. 36 24266.19 3・69 1675収04485. 37 15* 26 35Q70. 315 76.聚类法设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.C A S E 0 5 10 15 20 25 内蒙 5 -+吉林7 -+云南25 - + -+江西14 -+ +-+陕西27 - + -+ |新疆31 -+ +- +安徽12 -+-+ 11广西20 —+ + — + +——————— +辽宁 6 ---+ | |浙江11 -+—+ 1福建13 -+ 1重庆22 -+ + ............... ....... + 贵州24 -+ 1|山西 4 -+ -+ | |甘肃28 -+ | | |北京 1 -+ | | |青海29 + + + | 1天津 2 -+ 1|上海9 -+ 1|宁夏30 -+ - +|西藏26 -+ |海南21 -+ |河北 3 | 1四川23 - + | |黑龙江8 -+-+ + .......... + |湖南18 -+ + + | | |湖北17 - + -+ +-+ + -------------- ■...... + 广东19 -+ | |江苏10 --——+ |山东15 ...... + ....... +河南16 ...... +从SPSS分析结果可以得到,内蒙,吉林,黑龙江,新疆为第2族群,这一族群的特点是农业收入可能不高,但是农民的固定资产,和耕地面积非常高,农民的富余程度或者机械化程度较高;山东是第3族群,这一族群中六个指标都处于较高水平农林牧渔四项收入都处于较高水平而且农民富余;西藏处于第4族群,这是因为,西藏人员较少,自然条件恶劣,可使用耕地少,但是,由于国家的扶持,农民的固定资产较多,农民相对而言比较富足;大多数省份属于第1族群,这一族群的特点在于六项指标都没有较为突出的一项,或者农林牧渔收入的本来就少,或者是农民的虽然比较辛苦,总体的农业收入较高,但是农民的收入水平比较低,固定资产较少•三.判别法X1,X2,X3,X4,X5,X6分别代表农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积实验结果分析:从表上可以看出,组均值之间差值很大.各个分组,在6项指标上均值有较明显的差异.由表中可以知道,13456指标之间的sig 值较小,2指标sig 值有0.561较大, 不过仍说明接受原假设,各指标族群间差异较大.从表中可以知道,检验结果p值>0.05,此时,说明协方差矩阵相等,可以进行bayes检验.Fisher 分析法协方差矩阵的均等性的箱式检验典型判别式函数摘要由表中看出,函数1,2的特征值达到0.911,0.822比较大,对判别的贡献大由表中可知,3个Fishe判别函数分别为y i 2.928 0.003X20.626X6y2 2.269 0.002X2 0.489X6y3 0.975 0.009X2 0.01X3 0.03X4 0.037X6农村居民家庭拥有生产性固定资产原值对判别数据所属群体无用该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强.从表中可以看出相关性较强.符合较好.由上表可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类.贝叶斯分析法该表为贝叶斯函数判别函数的取值,从图中可以知道三类贝叶斯函数y1 0.03X1 0.029X2 0.03X3 0.002X4 0.001X5 0.153X1 8.418第一类:第二y2 0.06X10.42X2 0.009X3 0.004X40.004X5 4.286X6 38.18类;第三y3 0.02X-I0.010X20.002X30.010X40.001X5 1.X620.732类;第四类:『4 0.OO3X-I 0.051X20.004x30.006x40.002x5 1.675x661.646将各样品的自变量值代入上述4个BayeS判别函数,得到函数值。
多元统计分析经典案例
29
Copyright CAE
当你看一张map时 .. 问你自己
• 它意味着什么? • 它对理解数据有什么附加的作用? • 它对我们所知道的市场/顾客的思考方式是否适 合?
– 如果不是 - 错在什么地方?
• 它是否帮助我更好地了解市场?
30
Copyright CAE
当你看一张map时 .. 问你自己
Bird
Dog
40% 40% 20% 20% 50%
Cat
10%
16
Copyright CAE
现在我们用颜色和动物名称两个变量 来做2-维的图表
努力来显示..
- 那些动物在颜色方面最相似,那些区别最大? - 那些颜色更倾向那类动物 - 那些动物和那些颜色有更强的相关性,那些相关性很弱
17
Copyright CAE
Copyright CAE
相关性分析 Correspondence Analysis
9
Copyright CAE
结构
• • • • • • 什么是相关性分析? 尝试通过练习了解它 输入的类型 设计录入的格式 执行分析 解释和表述分析的结果
10
Copyright CAE
什么是相关性分析?
• 经常也称作 Brand Mapping 或 CORAN Mapping
6
Copyright CAE
我们通常使用的多元分析技术…...
• • • • • • • • 相关性分析(Brand Mapping ) 主成分分析 因子分析 多元回归 聚类分析/市场细分 联合性分析/ 平衡(Trade off) 分析 判别分析 etc. etc. etc.
7
Copyright CAE
(完整版)多元统计分析实例汇总
多元统计分析实例院系: 商学院学号:姓名:多元统计分析实例本文收集了 2012年31个省市自治区的农林牧渔和相关农业数据,通过对对 收集的数据进行比较分析对31个省市自治区进行分类.选取了 6个指标农业产值, 林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农 村居民家庭经营耕地面积. 数据如下表: 地区 农业总产值林业总产■{牧业总产■{渔业总产侬村居民家庭拥有生产性匡江 京津北西蒙宁林龙海苏江徽建西东南北南东西南庆川州南藏西肃海夏疆北天河山内辽吉黒上江浙安福江山河湖湖广广海重四贵云西陕甘青宁新166.29 54,33 154.16 12. 98 12?67. 090. 5 195.99 2.7S105.01 61. 66 1Y508. 571. 583095.29 77, 3S 1747. 66 177.74 1V904. 83 L3934?. 41 79.0? 293. E3 & 42 ^SOS. 38 Z 51171.^7 57. 7G IIIS .ES 戈& OS 加宪9.旳10.4 1539- 65128.68162L23 618.74 24997. 92 3. TS1166. E390. 1 1130. 3G 34. 14 24937. 06 S. 272315. 64 134. 5 1350. 63 92 31507. 91IM 56171. 439.55 72. 59 57. 45 4L46. 13 0. 262966.72 99.75 1226.13 1235.4 14541. 03 L35 1229. 3& 142.L4 549・ 01 637. 05 22747. 83 0. 54 1867. G4 209.5 1119.73 334.43 1E134. 35 1. 39 1263. 71 256.45 ^81.23 903. 36 11S21.38 (X ?3 1003.21 22S.91 7S2. es 333. 06 gggg. 3i 1. 57 3960. 62 107*01 2285. 22 12G7. 07 mea. iq L 643958. 95 140.85 2255. ei 86.4 12980. 72 1. 622438. 06 100.05 1334. 04 626.23 10313.13 L T12S51.^9 259.97 1483. E8 即9 94 8904. 32 1. 222229. 2T 222,74 1134,14 914, 05 S516. 720.53 1724 245.56 1072.77 331. 74 11851.56 1. 37 460. 72 137.35 214. 14 236.27 113S7. 05 0. 33 341.S1 43胡S 453 9 躬.99 12295. T4 L 292764.9 151.5 2269. E5 153. 77 13759.171.14364. S& 54 1勺 ^21. 55 2& 21 11957. 31LIS1398. IT 225. S3 912. 9? 63.1 IWO. 92 1. 653.39 2.5B 59. 02 0. 22 52935. OT L 391526.23 58.44 593. 72 14” 61 12273. 06 1. 529S4. 24 20.07 231. 72 1.8 1948E ・ 44 2. 72 117. 09 4.5? 137.03 a 56 21919.铀 L 33 240. 4& 9.77 105. 72 13. 36 24265.19 3・69 1675 43.04 ^85. 37 15. 26 35070. 31 5* 76.聚类法设定4个群聚,采用了系统聚类法.下表为SPSS分析之后的结果.Rescaled Dista nee Cluster Comb ine群集成员案例4群集1:北京12:天津1 10 15 20 25Label Num ^^"————————— + ————————— + —————————+————————— +————————— ^^"内蒙 5 -+吉林7 -+云南25 - + -+江西14 -+ +-+陕西27 -+-+ |新疆31 -+ +-+安徽12 -+-+ 11广西20 —+ + — + +—————+辽宁 6 ---+ | |浙江11 -+——+ |福建13 -+ 1重庆22 -+ + ---贵州24 -+ 1山西 4 -+—+ |甘肃28 -+ | |北京 1 -+ | |青海29 -+ + ....... +天津 2 -+ 1上海9 -+ 1宁夏30 -+—+西藏26 -+海南21 -+河北 3 ———+—————^^"四川23 - + |黑龙江8 - + -+ +--------------- 湖南18 -+ +---+ |湖北17 -+-+ +-+广东19 -+ | |江苏10 .... +山东15 ....... + ..... 河南16 ....... ++ |+ ,||+从SPSS分析结果可以得到,内蒙,吉林,黑龙江,新疆为第2族群,这一族群的特点是农业收入可能不高,但是农民的固定资产,和耕地面积非常高,农民的富余程度或者机械化程度较高;山东是第3族群,这一族群中六个指标都处于较高水平,农林牧渔四项收入都处于较高水平而且农民富余;西藏处于第4族群,这是因为,西藏人员较少,自然条件恶劣,可使用耕地少,但是,由于国家的扶持,农民的固定资产较多,农民相对而言比较富足;大多数省份属于第1族群,这一族群的特点在于六项指标都没有较为突出的一项,或者农林牧渔收入的本来就少,或者是农民的虽然比较辛苦,总体的农业收入较高,但是农民的收入水平比较低,固定资产较三.判别法Xi,X2,X3,X4,X5,X6分别代表农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积.实验结果分析:从表上可以看出,组均值之间差值很大.各个分组,在6项指标上均值有较明显的差异.由表中可以知道,13456指标之间的sig 值较小,2指标sig 值有0.561较大, 不过仍说明接受原假设,各指标族群间差异较大.从表中可以知道,检验结果P值>0.05,此时,说明协方差矩阵相等,可以进行bayes检验.Fisher 分析法协方差矩阵的均等性的箱式检验典型判别式函数摘要由表中看出,函数1,2的特征值达到0.911,0.822比较大,对判别的贡献大..农村居民家庭拥有生产性固定资产原值 对判别数据所属群体无用.由表中可知, 3个Fishe 判别函数分别为:y i2.928 2.269 0.003X 2 0.002X 20.626X 6 0.489X 6y 30.975 0.009X 20.01X 3 0.03X 4 0.037X 6该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强.从表中可以看出相关性较强.符合较好.由上表可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类.贝叶斯分析法该表为贝叶斯函数判别函数的取值,从图中可以知道三类贝叶斯函数.0.003x 1 0.051x 2 0.004x 30.006x 40.002x 5 1.675x 6 61.646将各样品的自变量值代入上述4个BayeS 判别函数,得到函数值。
多元统计分析案例
前3 年的模型为:
• Z= 0.3409F1+ 0.2072F2+ 0.2051F3+ 0.1789F4 • F1= 0.0302X1- 0.0962X2- 0.0935X3- 0.0782X4- 0.1018X5 + 0.3732X6 + 0.3731X7 + 0.3096X8 +0.1371X9 • F2= - 0.216X1- 0.107X2+ 0.3201X3+ 0.6389X4- 0.1491X5 - 0.2433X6 - 0.1172X7 - 0.0098X8 +0.4985X9 • F3= 0.7335X1+ 0.3212X2+ 0.0592X3- 0.0346X40.1677X5 + 0.2544X6 - 0.0056X7 - 0.0363X8 -0.4746X9 • F4 = - 0.2491X1 + 0.3195X2 + 0.1399X3 -0.2581X4 + 0.8017X5 - 0.2135X6 - 0.0968X7 -0.0375X8+ 0.1338X9 • 此模型的判别分割点: 0.0859。
• 表3 显示, 主成分1中, X6、X7、X8 和X9 的负荷量较为明显 且集中, 主要代表了企业的盈利能力; 主成分2 中, X2、X3 和X4的负荷量明显大于其他比率。代表了企业的偿债能力 ; 主成分3 中, X5 的负荷量为0.8706, 远高于其他指标, 代 表了企业的现金流量水平; 主成分4 中, X6的负荷量为 0.7786, 远高于其他指标, 代表了企业的盈力能力水平。
三、模型构建和检验
• ( 一) 主成分分析预警模型构建 • 为消除不同量纲的影响, 在进行主成分分析 之前, 首先根据标准化公式对估计样本组60 家公司的财务指标原始数据进行标准化处 理。为检验标准化后的数据是否适宜进行 主成分分析, 进行KMO 统计量与Bartlett 球 形检验, 结果如表1 所示。
多元统计分析实例汇总
多元统计分析实例院系: 商学院学号: 姓名:多兀统计分析实例本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类•选取了6个指标农业产值林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积.数据如下表:农业总产值林业想产{牧业总产彳渔业总产彳农村居民家庭拥有生产性匱166. 2954.83154. 1612. 9312767. 090+ 5195. 99 2.791CJ5,0161, 6617508. 57 1. 583095. 2977.881747, 66177.7417904. 33 1.S9847. 4179.07298. 83& 429808. 38 2. 51171^7S7.7S1118, 8626. 08293的.甜m 41539. 65128.631621. 23618. 7424997. 92 3. 781166. 589S. 11130, 3634. 1424937. 86 E. 272315.64134+51350. 6877. 9231507. 9113. 56 171.489.5572. 5957, 454146. 130. 26 2966.7299.751226, 181235.414541. 03 1.251229. 36142.14隔01687. 0522747. 830. 511867? 64209. 51119, 73381 4315134. 35 1.891263. 71256.45481. 28903. 3611821. 380. 731003. 21228.91752. 68333. 9999. 31 1. 573960. 6210T.012285. 921267. 071915& K 1. C43958. 95140. 85225F. 6186.412980. 72 1. 622483. 06100.051334. 04626. 2310813.13 1. 712651.69259.971488. 5B279. 948904, 32 1. 222229. 27222, 741134, 14914. 058516. 720.53 1724245.561072. 77331. 7411851. 56 1. 37 460. 72137.85214.14236. 2711387. 060. 0384L3143.48453. 944. 9912295. 74 1. 292764. 9151. 52259. 86163. 7713752.17 1. 14364. 8654.194Z1. 5523. 2111957. 31 1. 18 1398.17225.83912. 9763.119020. 92 1. 6 53, 392,5659, 020. 2252935. 07 1. 89 1磁2858.44598. 72血6112273. 06 1. 52 982 2420.07231, 72 1. 819486. 44 2.7211匚09 4.57137.080. 5621919. 34 1. S3240. 469.77105. 7213. 3624266.19 3. 69 1675収0Q485. 3715. 2635070. 31 5. 76.聚类法设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.Rescaled Dista nee Cluster Comb ineC A S E 0 5 10 15 20 25内蒙 5 -+吉林7 -+云南25 - + -+江西14 -+ +-+陕西27 - + -+ |新疆31 -+ +- +安徽12 -+-+ 11广西20 —+ + — + +——————— +辽宁 6 ---+ | |浙江11 -+—+ 1福建13 -+ 1重庆22 -+ + ......................... ........... + 贵州24 -+ 1|山西 4 -+ -- + | |甘肃28 -+ | | |北京 1 -+ | | |青海29 + + + | 1天津 2 -+ 1|上海9 -+ 1|宁夏30 -+ -- +|西藏26 -+ |海南21 -+ |河北 3 | 1四川23 -- + | |黑龙江8 -+-+ + .................. + |湖南18 -+ + -- + | | |湖北17 - + -+ +-+ + ---------------------- ■........... + 广东19 -+ | |江苏10 --——+ |山东15 ............ + ............ +河南16 ............ +从SPSS分析结果可以得到,内蒙,吉林,黑龙江,新疆为第2族群,这一族群的特点是农业收入可能不高,但是农民的固定资产,和耕地面积非常高,农民的富余程度或者机械化程度较高;山东是第3族群,这一族群中六个指标都处于较高水平农林牧渔四项收入都处于较高水平而且农民富余;西藏处于第4族群,这是因为,西藏人员较少,自然条件恶劣,可使用耕地少,但是,由于国家的扶持,农民的固定资产较多,农民相对而言比较富足;大多数省份属于第1族群,这一族群的特点在于六项指标都没有较为突出的一项,或者农林牧渔收入的本来就少,或者是农民的虽然比较辛苦,总体的农业收入较高,但是农民的收入水平比较低,固定资产较少•三.判别法X1,X2,X3,X4,X5,X6分别代表农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积•实验结果分析:从表上可以看出,组均值之间差值很大.各个分组,在6项指标上均值有较明显的差异.由表中可以知道,13456指标之间的sig 值较小,2指标sig 值有0.561较大,不过仍说明接受原假设,各指标族群间差异较大从表中可以知道,检验结果p值>0.05,此时,说明协方差矩阵相等,可以进行bayes 检验.Fisher 分析法协方差矩阵的均等性的箱式检验典型判别式函数摘要由表中看出,函数1,2的特征值达到0.911,0.822比较大,对判别的贡献大由表中可知,3个Fishe 判别函数分别为*2.928 0.003X 2 0.626X 6 y 2 2.2690.002X 20.489X 6y 3 0.975 0.009X 20.01X 3 0.03X 4 0.037X 6农村居民家庭拥有生产性固定资产原值对判别数据所属群体无用该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强.从表中可以看出相关性较强.符合较好.由上表可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类.贝叶斯分析法该表为贝叶斯函数判别函数的取值,从图中可以知道三类贝叶斯函数y1 0.03x1 0.029X2 0.03x3 0.002x4 0.001x5 0.153X1 8.418 第一类:第二y2 0.06x10.42X2 0.009x30.004x40.004x5 4.286X6 38.18 类;第三y0.02x-i 0.010x20.002x30.010x40.001x5 1.x620.732 类;第四类:y4 0.003x10.051x20.004x30.006x4 0.002x51.675x661.646将各样品的自变量值代入上述4个BayeS判别函数,得到函数值。
多元统计分析因子分析案例
y3
0.372 -0.017 -0.500 0.575 -0.295 -0.182 0.361 -0.245 0.099 -0.100 -0.256 -0.134 -0.078 0.560 0.103
y4
-0.119 0.289 0.710 0.361 -0.178 -0.070 0.448 -0.230 0.070 -0.165 -0.206 0.092 0.213 -0.234 -0.028
X5
精明
X6
诚实
X7
推销
X8
经验
X9
积极性
X10
抱负
X11
理解
X12
潜力
X13
交际能力 X14
适应性
X15
0.162 0.213 0.040 0.221 0.292 0.316 0.158 0.322 0.133 0.315 0.319 0.332 0.333 0.259 0.236
0.431 -0.033 0.237 -0.125 -0.249 -0.131 -0.400 -0.039 0.553 0.046 -0.068 -0.022 0.024 -0.079 0.421
Y2 0.538 0.500 0.492 -0.270 -0.212 -0.31表达式
y 1 0 . 2 x 1 7 0 . 3 x 6 2 1 0 . 2 x 3 3 0 0 . 5 x 2 4 1 0 . 5 x 8 5 3 0 . 4 x 8 6 7 y 2 0 . 5 x 1 3 0 . 5 x 2 8 0 0 . 4 x 0 3 9 0 . 2 x 2 4 7 0 . 2 x 0 5 1 0 . 3 x 6 2 1
X3:第三产业占GDP比重 X7:每万人拥有卫生技术人员数 X8:每万人高等学校在校生数 X9:教育经费投入占GDP比重 X16:每万人科研机构数 X17:科研经费占GDP比重
多元统计典型相关分析实例
多元统计典型相关分析实例第一篇:多元统计典型相关分析实例1、对体力测试(共7项指标)及运动能力测试(共5项指标)两组指标进行典型相关分析Run MATRIX procedure:Correlations for Set-1 X1 X2 X3 X4 X5 X6 X7 X1 1.0000.2701.1643-.0286.2463.0722-.1664 X2.2701 1.0000.2694.0406-.0670.3463.2709 X3.1643.2694 1.0000.3190-.2427.1931-.0176 X4-.0286.0406.3190 1.0000-.0370.0524.2035 X5.2463-.0670-.2427-.0370 1.0000.0517.3231 X6.0722.3463.1931.0524.0517 1.0000.2813 X7-.1664.2709-.0176.2035.3231.2813 1.0000Correlations for Set-2 X8 X9 X10 X11 X12 X8 1.0000-.4429-.2647-.4629.0777 X9-.4429 1.0000.4989.6067-.4744 X10-.2647.4989 1.0000.3562-.5285 X11-.4629.6067.3562 1.0000-.4369 X12.0777-.4744-.5285-.4369 1.0000两组变量的相关矩阵说明,体力测试指标与运动能力测试指标是有相关性的。
Correlations Between Set-1 and Set-2 X8 X9 X10 X11 X12 X1-.4005.3609.4116.2797-.4709 X2-.3900.5584.3977.4511-.0488 X3-.3026.5590.5538.3215-.4802 X4-.2834.2711-.0414.2470-.1007 X5-.4295-.1843-.0116.1415-.0132X6-.0800.2596.3310.2359-.2939 X7-.2568.1501.0388.0841.1923 上面给出的是两组变量间各变量的两两相关矩阵,可见体力测试指标与运动能力测试指标间确实存在相关性,这里需要做的就是提取出综合指标代表这种相关性。
多元统计分析(最终版)
题目:研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表。
分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。
(注:要对方差齐性进行检验)不同温度与不同湿度粘虫发育历期表根据上述题目,分析结果如下。
一、相关理论概述F 检验与方差齐性检验在方差分析的F 检验中,是以各个实验组内总体方差齐性为前提的,因此,按理应该在方差分析之前,要对各个实验组内的总体方差先进行齐性检验。
如果各个实验组内总体方差为齐性,而且经过F 检验所得多个样本所属总体平均数差异显著,这时才可以将多个样本所属总体平均数的差异归因于各种实验处理的不同所致;如果各个总体方差不齐,那么经过F 检验所得多个样本所属总体平均数差异显著的结果,可能有一部分归因于各个实验组内总体方差不同所致。
但是,方差齐性检验也可以在F 检验结果为多个样本所属总体平均数差异显著的情况下进行,因为F 检验之后,如果多个样本所属总体平均数差异不显著,就不必再进行方差齐性检验。
本文分析数据采用后一种方法,即先F 检验再方差齐次性检验。
相对湿度(%) 温度℃ 重复1 2 3 4 10025 91.2 95.0 93.8 93.0 2787.6 84.7 81.2 82.4 29 79.2 67.0 75.7 70.6 31 65.2 63.3 63.6 63.3 8025 93.2 89.3 95.1 95.5 2785.8 81.6 81.0 84.4 29 79.0 70.8 67.7 78.8 31 70.7 86.5 66.9 64.9 4025 100.2 103.3 98.3 103.8 2790.6 91.7 94.5 92.2 29 77.2 85.8 81.7 79.7 3173.673.276.472.5二、从单因子方差角度分析(一)在假定相对湿度不变的情况下分析1、假定相对湿度恒为40%,分析不同温度对粘虫发育历期的影响。
如下表: 温度℃重复252729311100.2 90.6 77.2 73.6 2 103.3 91.7 85.8 73.2 3 98.3 94.5 81.7 76.4 4 103.8 92.2 79.7 72.5 Ti 405.6 369324.4295.7T 2i164511.36136161105235.36 87438.49在本例中,r=4,m=4, n=16 ,=1394.7,= 123413.4696T 2/n=(1394.7)2/16=121574.2556 (式1)( 式2)(式3)S E =S T -S A =1839.214-1762.297=76.917 (式4)数据的方差分析表见表1.表1 粘虫发育历期方差分析表粘虫发育历期 (相对湿度40%)来源平方和 df 均方 F 显著性 组间 1762.297 3 587.432 91.646.000组内 76.917 12 6.410总数1839.21415分析表1可知,F 0.05(3,12)=3.49,F 值=,91.646,F>F 0.05,P=0.000<0.05,说明在相对湿度为40%时,不同温度对粘虫发育历期有显著影响。
多元统计分析及实例讨论
添加标题
百米跑成绩
添加标题
跳远成绩
添加标题
百米跨栏
添加标题
1500米跑成绩
添加标题
铅球成绩
添加标题
例3 奥运会十项全能 运动项目
添加标题
跳高成绩
添加标题
得分数据的因子分 析
添加标题
400米跑成绩
添加标题
铁饼成绩
添加标题
撑杆跳远成绩
添加标题
标枪成绩
1
0.59
1
0.35 0.42 1
0.34
0.51
0.38
1
0.63 0.49 0.19 0.29 1
0.40
0.52
0.36
0.46 0.34
1
0.28 0.31 0.73 0.27 0.17 0.32 1
0.20
0.36
0.24
0.39 0.23 0.33
0.24
1
0.11 0.21 0.44 0.17 0.13 0.18 0.34 0.24 1
1. 因子分析基本思想简介
单击此处 添加大标 题内容
多元统计分析是以p个变量的n次观测数所组成的数据为依据。 简化数据结构(降维) 将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关的;将
高维空间数据投影成到低维空间数据; 分类与判别(归类) 对所考察观测点(或变量)按相似程度进行分类或归类; 变量间的相互联系 相互依赖关系:分析一个或几个变量的变化是否依赖于另一 些变量的变化;变量间相关关系:分析两组变量相互关系; 多元数据的统计推断 多元正态分布的均值向量与协方差阵的估计及其假设检验; 多元统计分析的理论基础 多维随机变量及其分布,抽样分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
精品资料
一、对我国30个省市自治区农村居民生活水平作聚类分析
1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。
因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。
现从2010年的调查资料中
2、将数据进行标准化变换:
3、用K-均值聚类法对样本进行分类如下:
分四类的情况下,最终分类结果如下:
第一类:北京、上海、浙江。
第二类:天津、、辽宁、、福建、甘肃、江苏、广东。
第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。
第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。
从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。
二、判别分析
针对以上分类结果进行判别分析。
其中将新疆作作为待判样本。
判别结果如下:
**. 错误分类的案例
从上可知,只有一个地区判别组和原组不同,回代率为96%。
下面对新疆进行判别:
已知判别函数系数和组质心处函数如下:
判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7
Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7
将西藏的指标数据代入函数得:Y1=-1.08671
Y2=-0.62213
Y3=-0.84188
计算Y值与不同类别均值之间的距离分别为:D1=138.5182756
D2=12.11433124
D3=7.027544292
D4=2.869979346
经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。
三,因子分析:
分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。
经spss软件分析结果如下:
(1)各指标的相关系数阵:
(2)检验:
0.
系数矩阵与单位阵有显著差异,同时,KOM值为0.701,根据Kaiser给出的度量标准可知原有变量适合进行因子分析
68%,累积方差贡献率为68.973%。
第二个因子的特征根为0.863,解释原有变量总方差17.34%,累计方差贡献率为86.313%。
(4)碎石图:
(5)因子载荷阵如下:
为便于对各因子进行命名,对因子载荷阵实施正交旋转。
旋转之后的因子载荷阵:
(6
四,主成分分析:
(1)各指标间的相关系数矩阵如下表所示:
(2)求相关矩阵的特征值和特征向量:
从上表可知,前两个特征值累计贡献率已达86.313%。
说明前两个主成分基本包
含了全部指标具有的信息。
因此,取前两个特征值,并计算相应的特征向量:(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:
所以,前两个主成分为:
第一个主成分:F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5 第二个主成分:F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5 在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农居民的收入支出状况的综合指标。
在第二主成分中,第一个指标系数较大,是农产品价格水平指标。
(4)因子得分:
F1=-0.193家庭人均纯收入+0.293就业人数
F2=1.009农产品价格指数+0.031农村居民消费-0.051消费支出+0.041家庭人均纯收入-0.218就业人数
(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为:Z=0.63997F1+0.22315F2(旋转之后的方差贡献率)
F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5
F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5
将各地区指标值代入上式得到各地区农村生活水平的综合值及排名:
(6)对结果进行分析:
从中可以看出,各地区的农村居民生活水平存在差异。
其中,北京、上海、浙江、江苏地区的综合评价值排名前列,说明这几个城市农村居民的生活水平比较高。
主要表现在农民收入水平和消费水平两个方面。
这几个城市属于沿海地区,经济比较发达,工农业发展遥遥领先于其他地区。
其次,天津、山东、福建、辽宁、广东综合评价值相对较低。
不过也处于全国前十的地位。
青海、贵州、广西、重庆、新疆、甘肃、陕西、云南等几个地区农村居民生活水平发展比较落后。
原因是这些地区大多位于中国中西部,地理位置不佳,交通不便,经济发展水平不高,进而影响到农村经济的发展。
农村居民收入水平和消费水平均比较低。
因此,要提高这些地区农民的生活水平,政府应该加大这些地区的基础设施建设,提高这些地区农村居民的收入水平。