一组空气污染数据的主成分分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一组空气污染数据的主成分分析
【说明】下面的多元统计分析练习题摘自R.A. Johnson等编写的《应用多元统计分析(第五版)》,原书为:Richard A. Johnson and Dean W. Wichern. Applied Multivariate Statistical Analysis(5th Ed). Pearson Education, Inc. 2003。我看的是中国统计出版社(China Statistics Press)2003年发行的影印本。
第一题为原书第1.6题,即第1章的第6题,第二题为原书第8.12题,即第8章的第12题。
第二题用的是第一题的数据。
1 习题
1.6. The data in Table 1.5 are 42 measurements on air-pollution variables recorded at 12:00 noon in the Los Angeles area on different days.
(a)Plot the marginal dot diagrams for all the variables.
(b)Construct the x, S n, and R arrays, and interpret the entries in R.
TABLE 1.5 AIR-POLLUTION DATA
Wind (x1)Solar
radiation (x2)CO (x3)NO (x4)NO2 (x5)O3 (x6)HC (x7)
8 98 7 2 12 8 2 7 107 4 3 9 5 3 7 103 4 3 5 6 3 10 88 5 2 8 15 4 6 91 4 2 8 10 3
8 90 5 2 12 12 4
9 84 7 4 12 15 5 5 72 6 4 21 14 4
7 82 5 1 11 11 3
8 64 5 2 13 9 4 6 71 5 4 10 3 3
6 91 4 2 12
7 3
7 72 7 4 18 10 3 10 70 4 2 11 7 3 10 72 4 1 8 10 3 9 77 4 1 9 10 3 8 76 4 1 7 7 3
8 71 5 3 16 4 4
9 67 4 2 13 2 3 9 69 3 3 9 5 3
9 88 4 2 7 6 3
8 80 4 2 13 11 4
5 30 3 3 5 2 3
6 83 5 1 10 23 4
8 84 3 2 7 6 3
6 78 4 2 11 11 3
8 79 2 1 7 10 3
6 62 4 3 9 8 3
10 37 3 1 7 2 3
8 71 4 1 10 7 3
7 52 4 1 12 8 4
5 48
6 5 8 4 3
6 75 4 1 10 24 3
10 35 4 1 6 9 2
8 85 4 1 9 10 2
5 8
6 3 1 6 12 2
5 8
6
7 2 13 1
8 2
7 79 7 4 9 25 3
7 79 5 2 8 6 2
6 68 6 2 11 14 3
8 40 4 3 6 5 2
Source: Data courtesy of Professor G.C. Tiao.
8.12. Consider the air-pollution data listed in Table 1.5. Your job is to summarize these data in fewer than p=7 dimensions if possible. Conduct a principal component analysis of the data using both the covariance matrix S and the correlation matrix R. What have you learned? Does it make any difference which matrix is chosen for analysis? Can the data be summarized in three or fewer dimensions? Can you interpret the principal components?
2 部分解答
2.1 部分统计参数
利用Excel计算的平均值(x)和标准差
Wind Solar radiation CO NO NO2O3HC Average 7.5 73.857143 4.547619 2.1904762 10.047619 9.4047619 3.0952381 Stdev 1.5811388 17.335388 1.2337209 1.0873574 3.3709837 5.5658345 0.6917466
Excel给出的协方差矩阵S
Wind
Solar
radiation CO NO NO2O3HC
Wind 2.4404762
Solar
radiation -2.714286 293.36054
CO -0.369048 3.8163265 1.4858277
NO -0.452381 -1.353741 0.6575964 1.154195
NO2-0.571429 6.6020408 2.2596372 1.0623583 11.092971
O3-2.178571 30.057823 2.7545351 -0.791383 3.0521542 30.24093
HC 0.1666667 0.6088435 0.138322 0.1723356 1.0192744 0.5804989 0.4671202 Excel给出相关系数矩阵R
Wind radiation CO NO NO2O3HC Wind 1
Solar radiation -0.101442 1
CO -0.193803 0.1827934 1
NO -0.269543 -0.073569 0.5021525 1
NO2-0.109825 0.115732 0.5565838 0.2968981 1
O3-0.253593 0.3191237 0.4109288 -0.133952 0.1666422 1
从相关系数矩阵可以看出,CO与NO、NO2相关性明显,O3与Solar radiation、CO相关性明显。后面的主成分分析将CO与NO、NO2归并到一个主成分,将O3与Solar radiation 归并到一个主成分,将HC、Wind归并到一个主成分。HC与Wind的相关系数并不高,但从正相关的角度看,二者的数值倒是最高的。方差极大正交旋转之后,HC与CO、NO、NO2归并到一个因子,因为HC与NO2的相关系数较高,与CO、NO的相关系数高于其他变量。
2.2 主成分分析之一——数据未经标准化
下面是从相关矩阵R出发,SPSS给出的结果。原始数据未经标准化。所谓从R出发,就是在SPSS的Factor Analysis: Extraction—Analysis选项中选中Correlation Matrix。
SPSS给出的相关系数矩阵(Correlation Matrix),与Excel计算的结果一样。
公因子方差(Communalities)表如下。公因子方差变化于0.544~0.795之间,相差不