主成分分析案例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
案例我国各地区城镇居民消费性支出的主成分分析
下表列出了1999年全国31个省、直辖市和自治区(港、澳、台不在其中)的城镇居民家庭平均每人全年消费性支出的八个主要变量数据,请从八个变量中识别出主成分。
表1 变量表
表1消费性支出数据单位:元
资料来源:2000年《中国统计年鉴》
我们希望对上述八个指标数据进行主成分分析。
从128,,,x x x 的样本相关阵ˆR 出发进行主成分分析,SAS 软件的输出结果如输出1所示。
输出1 对全国31个地区消费性支出的主成分分析
从输出1可以看出,前两个和前三个主成分的累计贡献率分别达到80.6%和87.8%,第
一主成分1ˆy 在所有变量(除在*
2x 上的载荷稍偏小外)上都有近似相等的正载荷,反映了综合消
费性支出的水平,因此第一主成分可称为综合消费性支出成分。第二主成分2ˆy 在变量*
2x 上
有很高的正载荷,在变量*
4x 上有中等的正载荷,而在其余变量上有负载荷或很小的正载荷。
可以认为这个主成分度量了受地区气候影响的消费性支出(主要是衣着2x ,其次是医疗保健
4x ①)在所有消费性支出中占的比重(也可理解为一种消费倾向),第二主成分可称为消费倾向
成分。第三主成分很难给出明显的解释,因此我们只取前面两个主成分。
表2和表3是把31个地区分别按第一和第二主成分得分从小到大重新排序后的结果。从表2可以看出,东部地区的第一主成分得分普遍较高,中部地区一般,而西部地区则普遍较低。从表3可见,北方地区的第二主成分得分普遍较高,而南方地区则普遍较低,这是由于北方地区气候寒冷,用于衣着、医疗保健等消费的比重相对较高,而南方地区则相反。这也进一步支持了上述对第二主成分的解释。图1是关于第一和第二主成分得分的散点图,该图等价于各变量经标准化后的八维数据点群在具有最大投影点群分散程度的二维平面上的投影。它对各地区的综合消费性支出和受地区气候影响的消费性支出占的比重有较直观的描述。
表2
按第一主成分排序的31个地区
①
可从表1计算出医疗保健在消费性总支出中占的比率8
4
1
i
i x x
=∑,然后进行由大到小的排序,各地区的顺
序依次为:宁夏、黑龙江、青海、河北、辽宁、北京、浙江、陕西、甘肃、山西、吉林、河南、新疆、内蒙古、天津、云南、山东、广东、湖北、四川、重庆、湖南、海南、江苏、上海、西藏、贵州、广西、安徽、江西和福建,大致由寒冷的北方地区排到温暖的南方地区。这是由于气候的寒冷易导致医疗保健费用的增加,因此,可以认为除衣着2x 外医疗保健4x 也是受地区气候影响的变量。
表3 按第二主成分排序的31个地区
图1 前两个主成分的散点图
从图1中可以看出,上海、广东和北京在最右边,城镇居民综合消费性支出是最高的;其次是浙江和天津;江西在散点图的最左边,表明综合消费性支出是最低的;北京和西藏在散点图的最上边,说明受地区气候影响的消费性支出占的比重最高;广东在最底部,表明受地区气候影响的消费性支出占的比重最低。
注:该例中,如果我们只是要根据128,,,x x x 来比较各地区城镇居民消费性支出的总水平,则消费性总支出8
01i i x x ==∑无疑是最合适的,它的含义确切且富有很好的实际意义。但
如果我们要比较的不是总水平而是整体水平,则使用单个变量0x 就有其不足之处,它的信息量不够足,未能较充分地提取128,,,x x x 中的有用信息。本案例所进行的主成分分析却能
弥补此种不足,(从ˆR
出发的)前两个主成分1ˆy 和2ˆy 合在一起能够包含有128,,,x x x 的较多信息,除了1ˆy
能在某种意义上反映消费性支出总水平外,2ˆy 还能进一步反映对各地区消费性支出差异起较重要作用的某种消费倾向。
1ˆy
和0x 之间存在着高达0.989r =的正相关性,虽然这两个变量高度相关,且意义相近,但两者还是有着本质区别,主要表现在如下几点:(1)128,,,x x x 中各变量对0x 的作用有
很大的不同(如1x 的作用就特别大),而1ˆy 是对128,,,x x x 作标准化变换(意味着对每项消费性支出平等看待)后得到的,依据1ˆy
的表达式,128,,,x x x 中的每个变量对1ˆy 的作用是大致相同的。(2)某地区的0x 值取决于该地区128,,,x x x 的绝对数值,而其1ˆy
值则取决于该地区128,,,x x x 中的每个变量值在所有31个地区中的相对大小,它是这八个变量值相对
大小的综合值;(3)0x 的含义是完全清楚的,而1ˆy
的含义是在某种意义上(即在某线性组合意义上)的,不像0x 的含义那么清楚。