主成分分析和判别分析详解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析
主题描述:中国城镇家庭全年人均食品支出分析。希望通过对原始数据,如粮食支出、肉类支出等多个变量进行主成分分析,研究城镇家庭食品支出的主成分构成,并用较少维度的变量综合表征食品支出这一变量。
模型描述: Y=β1X1+ β2X2+…+ β18X18其中,
因变量Y表示:食品支出总额
自变量X包括:X1粮食支出、X2淀粉及薯类支出、X3干豆类支出、X4油脂类支出、X5肉禽及制品支出、X6蛋类支出、X7水产品支出、X8菜类支出、X9调味品支出、X10糖类支出、X11烟草类支出、X12酒和饮料支出、X13干鲜瓜果类支出、X14糕点类支出、X15奶及奶制品支出、X16其他支出、X17在外用餐支出、X18食品加工服务费支出共18项指标。
数据来源:2007/2008/2009《中国数据统计年鉴》30个城市自治区居民家庭平均每人全年消费性支出共93组数据
(数据见附录)
结果展示及分析:
操作过程:导入数据后,选择“分析”—“降维”—“因子分析”,在弹出的对话框中:
数据选择除“年份”、“城市”、“食品支出”以外的所有变量,“描述”、“抽取”、“得分”选项分别按如下图中设置,其余选项保持默认设置。
其中,将“抽取”设置为“基于特征值—特征值大于1”用以筛选特征根大于1的主成分。
(此处勾选了“载荷图”选项,主要是为了后面因子分析中对比因子旋转前后的载荷变化,在主成分中将暂不做分析。)
设置“得分”选项是用以计算将原始数据和主成分都进行标准化后的主成分系数。得到的结果如下:
这是相关系数矩阵,表明各个变量之间的相关性。如果数据在此矩阵中表现出来的相关性较强则可进行主成分分析,否则表明数据不需要做主成分分析。从表中数据看:大多数变量间的相关性中等偏高,个别变量如糕点类与干鲜瓜果类之间的相关性较强……说明所选初始变量存在信息上的重叠,可以尝试进行主成分分析。
本表表明所提取主成分的信息。
初始特征值表征的是引入该主成分对原始变量信息的平均解释力度,当主成分的原始特征根大于1时,表明引入该主成分是有意义的,否则说明引入该主成分对原始变量的解释力度不如引入一个原始变量的解释力度大。从表中可以看出,前六个主成分的“初始特征值均”大于1,被选入作为主成分。
“方差的%”即“方差贡献率”是用每个主成分的方差除以所有主成分方差的总和,即某一主成分的方差在全部方差中的比重,表明某一主成分综合原始变量信息的能力,因此这个百分数越高表明能力越强。本模型中,前六个主成分的方差贡献率依次递减,最低为6%左右,说明了所提取得每一主成分反映原始信息的能力。
“累计%”既“累计方差贡献率”是前N个主成分的贡献率的和。本模型中前六个主
成分的累积贡献率达到80.565%。笔者认为这是可以接受的,虽然按照通常的主成分分析
一般前三个主成分的累积贡献率会达到85%以上,但是由于原始变量维度较大(18维),
且变量的数据均是原始为修正数据,因此对于模型能够反映80%以上原始数据信息这一结果是被接受的。
成分矩阵显示每个原始变量在主成分中的系数。虽然从这个表中也能看出个主成分的载荷,但是此表中的主成分是未经标准化的,因此选择使用得分系数矩阵中的载荷来分析各主成分在变量上的载荷。
从这个表看出主成分变量经标准化后在原始变量上的载荷,首先可据此写出主成分的表达式:
F1= 0.077X1+0.059X2+0.092X3+0.073X4+0.081X5+0.078X6+0.080X7+0.107X8+0.110X9+0.095X10+0,061X11+0.102X12+0.116X13+0.117X14+0.110X15+0.008X16+0.108X17-0.012X18
F2= 0.143X1-0.248X2+0.005X3+0.240X4+0.343X5-0.150X6-0.103X7+0.273X8-0.083X9+0.063X10+
0.113X11-0.174X12-0.158X13-0.175X14-0.096X15-0.102X16-0.037X17-0.004X18
。。。
F6= -0.207X1-0.044X2+0.025X3-0.366X4-0.048X5+0.064X6+0.177X7+0.052X8-0.128X9 + 0.149X10 + 0.382X11+0.078X12-0.079X13-0.040X14+0.043X15-0.587X16-0.040X17+0.403X18
其次,根据系数,由于主成分F1在各变量上的载荷较为均衡,可以看成变量“调味品”、“干鲜瓜果”、“糕点”以及“奶类及奶制品”的综合反映指标;而F2可以看成
反映“淀粉及薯类”、“肉禽及制品”“菜类”3个变量的综合指标;F3可作为“水产品”、“油脂”、“在外用餐”、“食品加工费”的综合反映指标;F4可作为“干豆”、“蛋类”、“糖类”、“烟草类”的综合反映指标;F5和F6在变量“其他”和“食品加
工服务费”上的载荷均属于各自载荷中较大的,都反映了这两个变量的信息。就这一点,一方面有可能目前所建立的主成分模型还不够完善,另一方面由于“其他”这一变量所包含的内容不甚明确,如果能够对其他中所包含的信息内容再进一步明确,或许F5和F6在
这几个变量上的载荷便会发生变化,使得其表征方向更加明显。但是由于主成分分析主要是对变量维数进行压缩,并尽可能的去解释每一主成分所表征的意义,所以主要目的已经达到,至于对此进行改进将在最终结论部分进行讨论。基于以上信息,可以主成分F1作
为表征居民对副食的需求,以F1表征居民在主食上的需求,以F3表征对高级食物的需求,以F4表征某些特定食物的需求,F5或F6表征其他方面的饮食需求。
最后的这个表示表明三个主成分协方差的表,由于协方差阵时单位阵,所以看出所提取的三个主成分是相互正交的,符合主成分分析的要求。
模型实际意义:
应用所得到的主成分模型,可以对某一实际的测量值进行分析。如:07年安徽省按
照表中变量顺序的实际值如下:
3091.2800 243.7800 17.2500 40.8000 92.1500 548.9300
96.2100 143.1600 295.5700 38.4000 29.6100 235.2100
253.0500 204.6700 57.1700 175.0900 62.2600 557.5800
.4000