空气污染研究的主成分分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
空气污染研究的主成分分析
一、提出问题
本文对于给定的某城市42天中午12点的空气污染数据进行主成分分析,主要解决以下几个问题:
(1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二者的结果差异;(2)对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释。
二、分析问题
主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。
针对问题一,首先将数据标准化,计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取成分个数,列出主成分方程并解释主成分意义。
针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达到80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释。
三、模型假设
1、影响污染程度的变量只有本文中所提到的变量;
2、随机选取的42天;
3、题目中所提到的城市是平衡发展,政府对环境治理干预较小,即此城市的环境不会出现强烈波动;
4、题目中所给的污染浓度及气象参数有效,数据都准确可靠,同时不考虑人为因素、检测仪器精确度不同等影响。
四、符号说明
五、问题求解
5.1协方差矩阵主成分分析
设∑是T
321),,,,(p x x x x x =的协方差矩阵,∑的特征值与正交化特征向量分别为
0321≥≥≥≥≥p λλλλ 及p e e e e ,,,,321 ,且x 的第i 个主成分为
),,3,2,1(,332211p i x e x e x e x e Y p ip i i i i =+++= (1)
根据已有数据计算得样本T 321),,,,(p x x x x x =的均值向量T 321),,,,(p x x x x x =为
T )0952.34048
.90476.101905.24762.48333
.735.7(=x
根据协方差矩阵计算公式
T 1
))((1n 1x x x x i i n
i ---=∑∑= (2) 代入数据可求得随机变量T
7654321),,,,,,(x x x x x x x x =相应的样本协方差矩阵为
⎥⎥⎥
⎥⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡--------=∑479.0595.0044.1177.0142.0624.0171.0595.0979.30127.3811.0822.2791
.30232.2044.1127.3364.11088.1315.2763.6585.0177.0811.0088.1182.1674.0387.1463.0142.0822.2315.2674.0522.1909.3378.0624.0791.30763.6387.1-909.3156.300781.2171.0232.2-585.0-463.0-378.0-781.2-500.2
利用特征值计算公式0=∑-E λ代入数据可求得∑的特征值i λ与对应单位正交化特征向量)7,,2,1( =i e i 分别为
6941.3031=λ,
T 1)0024.01125
.00246
.00046
.00150
.09932
.00099
.0(-----=e
3132.282=λ,
T 2)0237.09727
.01501
.00128
.01059
.01163
.00766
.0(----=e
4674.113=λ,
T 3)0851.01711
.09541
.01320
.01861
.00070
.00314
.0(---=e
5494.24=λ,
T 4)1092.00670
.01188
.03467
.01998
.00005
.08996
.0(---=e
4703.15=λ,
T 5)0470.00095
.02074
.05364
.07183
.00016
.03886
.0(--=e
5479.06=λ,
T 6)6207.00557
.00264
.05912
.05099
.00036
.00386
.0(--=e
2243.07=λ,
T 7)7699.00652
.00931.04743.03716.00081.01766
.0(-----=e
利用第i 个主成分的贡献率
∑=p
k k
i
1
λ
λ (3)
及前k 个主成分的累计贡献率
∑∑==p
t t
k s s 1
1
λ
λ (4)
代入数据计算得∑的各标准化主成分的贡献率及累计贡献率(如表1所示),可以看出,前三个标准化样本的累计贡献率已经达到98.6968%,故只需提取前三个主成分即可:
表1 ∑的各标准化主成分的贡献率及累计贡献率
记主成分向量为 ),.,,,,(7654321Y Y Y Y Y Y Y Y =
由 X P Y T
=,),,,,,,(7654321e e e e e e e P =
知x 的前三个主成分分别为
765432110024.01125.00246.00046.00150.09932.00099.0x x x x x x x Y ---+--=765432120237.09727.01501.00218.01059.01163.00766.0x x x x x x x Y ---+-+=765432130851.01711.09541.01320.01861.00070.00314.0x x x x x x x Y +-+++--=
因此,用前三个主成分代替原来7个变量,信息损失量较小。
进一步由i Y 与i X 的相关系数
ij jj
i
x Y e i
i
σλρ=
, (5)
计算出前三个主成分与各原始变量的相关系数如下表: