主成分分析 实例

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§8 实例 实例1

计算得

1x =71.25,2x =67.5

分析1:基于协差阵∑ 求主成分。

369.6117.9117.9214.3S ⎛⎫

= ⎪⎝⎭

特征根与特征向量(S无偏,用SPSS )

Factor 1 Factor 2 11x x - 0.880 -0.474

22x x -

0.474 0.880 特征值 433.12 150.81 贡献率

0.7417 0.2583

注:样本协差阵为无偏估计11(11)1n n n S X I X n n

''=

--, 所以,第一、二主成分的表达式为

112212

0.88(71.25)0.47(67.5)

0.47(71.25)0.88(67.5)y x x y x x =-+-⎧⎨

=--+-⎩ 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。1y 越大,综合成绩越好。(综合成分)

第二主成分的两个系数异号(反映了两科成绩的均衡性)。不妨将英语称为文科,数学称为理科。2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。(结构成分)

问题:英语的权数为何大?如何解释? 分析2:

基于相关阵R 求主成分。因为

1x =71.25,2x =67.5

所以相关阵

11R ⎛

=⎪

解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为:

Factor 1 Factor 2 11

1x x s - 0.707 0.707 22

2

x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率

0.709

0.291

所以,第一、二主成分的表达式为

12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --⎧

=+=+⎪⎪

--⎪=-=-⎪⎩

1122120.039(71.25)0.052(67.5)

0.039(71.25)0.052(67.5)y x x y x x =-+-⎧⎨

=---⎩ 112212

0.0390.052 6.273

0.0390.0520.671y x x y x x =+-⎧⎨

=-+⎩ *

2*11707.0707.0x x y += *2

*12707.0707.0x x y -= 基于相关阵的更说明了:

第一主成分是英语与数学的加权总分。 第二主成分是对两科成绩均衡性的度量。

此例说明:基于协差阵与基于相关阵的主成分分析的结果不一致。结合此例的实际背景,经对比分析可知,基于协差阵的主成分分析更符合实际。

Y1 Y2 Y3 Y4 Y5 Y6

x 1:身高 0.469 -0.365 -0.092 -0.122 0.08 -0.786 x2:坐高 0.404 -0.397 -0.613 0.326 -0.027 0.443 x 3:胸围 0.394 0.397 0.279 0.656 -0.405 -0.125 x 4:臂长 0.408 -0.365 0.705 -0.108 0.235 0.371 x 5:肋围 0.337 0.569 -0.164 -0.019 0.731 0.034 x 6:腰围 0.427 0.308 -0.119

-0.661 -0.49 0.179 特征值

3.287 1.406 0.459 0.426 0.295 0.126 贡献率 0.6373 0.169 0.0719

0.0508 0.0351 0.0091 累计贡献率 0.6373 0.8063 0.8781

0.9289 0.964 1

从第一主成分可看出,各原始变量的载荷均为正,且近似相等。若1y 较大,则意味着各原始变量也较大,说明身材高大;若1y 较小,则意味着各原始变量也较小,说明身材矮小。因此,第一主成分1y 可称为(身材)大小成分。(规模成分)

从第二主成分可看出,在“身高*1x 、坐高*2x 、臂长*

4x ”等纵向指标上有中

等的负载荷,在“胸围*3x 、肋围*5x 、腰围*

6x ”等横向指标上有中等的正载荷。

因此,第二主成分2y 可称为体形成分。(比例成分—纵、横比例)

从第三主成分可看出,在“坐高*2x ”上有较大的负载荷,在“臂长*

4x ”上

有较大的正载荷,而其他变量上的载荷都较小。故第三主成分基本上是反映的

是“坐高*2x ”与“臂长*

4x ”的比例。因此,第三主成分3y 可称为上身比例成分。

(局部比例成分)

第四主成分的贡献率较小,实际意义也不好解释,故取前两个或前三个主成分即可。

例、用“消费支出数据”,从样本相关矩阵出发进行主成分分析,食品服装用品医疗通讯文化居住杂项北京2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64 天津2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 河北1495.63 515.9 362.37 285.32 272.95 540.58 364.91 188.63 山西1406.33 477.77 290.15 208.57 201.5 414.72 281.84 212.1 内蒙古1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96 辽宁1730.84 553.9 246.91 279.81 239.18 445.2 330.24 163.86 吉林1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76 黑龙江1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85 上海3712.31 550.74 893.37 346.93 527 1034.98 720.33 462.03 江苏2207.58 449.37 572.4 211.92 302.09 585.23 429.77 252.54 浙江2629.16 557.32 689.73 435.69 514.66 795.87 575.76 323.36 安徽1844.78 430.29 271.28 126.33 250.56 513.18 314 151.39 福建2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.29 江西1563.78 303.65 233.81 107.9 209.7 393.99 509.39 160.12 山东1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.84 河南1427.65 431.79 288.55 208.14 217 337.76 421.31 165.32 湖北1783.43 511.88 282.84 201.01 237.6 617.74 523.52 182.52 湖南1942.23 512.27 401.39 206.06 321.29 697.22 492.6 226.45 广东3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81 广西2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.27 海南2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19 重庆2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.8 四川1974.28 507.76 344.79 203.21 240.24 575.1 430.36 223.46 贵州1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48 云南2194.25 537.01 369.07 249.54 290.84 561.91 407.7 330.95 西藏2646.61 839.7 204.44 209.11 379.3 371.04 269.59 389.33 陕西1472.95 390.89 447.95 259.51 230.61 490.9 469.1 191.34 甘肃1525.57 472.98 328.9 219.86 206.65 449.69 249.66 228.19 青海1654.69 437.77 258.78 303 244.93 479.53 288.56 236.51 宁夏1375.46 480.89 273.84 317.32 251.08 424.75 228.73 195.93 新疆1608.82 536.05 432.46 235.82 250.28 541.3 344.85 214.4

相关文档
最新文档