空气污染研究的主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、提出问题

本文对于给定的某城市42天中午12点的空气污染数据进行主成分分析,主要解决以下几个问题:

(1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二者的结果差异;(2)对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释。

二、分析问题

主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。

针对问题一,首先将数据标准化,计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取成分个数,列出主成分方程并解释主成分意义。

针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达到80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释。

三、模型假设

1、影响污染程度的变量只有本文中所提到的变量;

2、随机选取的42天;

3、题目中所提到的城市是平衡发展,政府对环境治理干预较小,即此城市的环境不会出现强烈波动;

4、题目中所给的污染浓度及气象参数有效,数据都准确可靠,同时不考虑人为因素、检测仪器精确度不同等影响。

四、符号说明

Y

样本主成分 ),(ov j X X C i

样本协方差 ρ

样本相关矩阵 i μ 样本平均值 ∑

协方差矩阵 P 特征向量矩阵 λ

矩阵的特征值 e

矩阵的特征向量

信息提取率

五、问题求解

协方差矩阵主成分分析

设是的协方差矩阵,的特征值与正交化特征向量分别为及,且的第个主成分为

),,3,2,1(,332211p i x e x e x e x e Y p ip i i i i ΛΛ=+++= (1)

根据已有数据计算得样本的均值向量为

根据协方差矩阵计算公式

(2)

代入数据可求得随机变量相应的样本协方差矩阵为

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦

⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡--------=∑479.0595.0044.1177.0142.0624.0171.0595.0979.30127.3811.0822.2791.30232.2044.1127.3364.11088.1315.2763.6585.0177.0811.0088.1182.1674.0387.1463.0142.0822.2315.2674.0522.1909.3378.0624.0791.30763.6387.1-909.3156.300781.2171.0232.2-585.0-463.0-378.0-781.2-500.2

利用特征值计算公式0=∑-E λ代入数据可求得∑的特征值i λ与对应单位正交化特征向量)7,,2,1(Λ=i e i 分别为

6941.3031=λ,

T 1)0024.01125

.00246

.00046

.00150

.09932

.00099

.0(-----=e

3132.282=λ,

T 2)0237.09727

.01501

.00128

.01059

.01163

.00766

.0(----=e

4674.113=λ,

T 3)0851.01711

.09541

.01320

.01861

.00070

.00314

.0(---=e

5494.24=λ,

T 4)1092.00670

.01188

.03467

.01998

.00005

.08996

.0(---=e

4703.15=λ,

T 5)0470.00095

.02074

.05364

.07183

.00016

.03886

.0(--=e

5479.06=λ,

T 6)6207.00557

.00264

.05912

.05099

.00036

.00386

.0(--=e

2243.07=λ,

T 7)7699.00652

.00931.04743.03716.00081.01766

.0(-----=e

利用第i 个主成分的贡献率

∑=p

k k

i

1

λ

λ

(3)

及前k 个主成分的累计贡献率

∑∑==p

t t

k s s 1

1

λ

λ (4

)

代入数据计算得∑的各标准化主成分的贡献率及累计贡献率(如表1所示),可以看出,前三个标准化样本的累计贡献率已经达到%,故只需提取前三个主成分即可:

表1 ∑的各标准化主成分的贡献率及累计贡献率

记主成分向量为 ),.,,,,(7654321Y Y Y Y Y Y Y Y =

由 X P Y T

=,),,,,,,(7654321e e e e e e e P =

知x 的前三个主成分分别为

765432110024.01125.00246.00046.00150.09932.00099.0x x x x x x x Y ---+--=765432120237.09727.01501.00218.01059.01163.00766.0x x x x x x x Y ---+-+=765432130851.01711.09541.01320

.01861.00070.00314.0x x x x x x x Y +-+++--=

因此,用前三个主成分代替原来7个变量,信息损失量较小。

进一步由i Y 与i X 的相关系数

ij jj

i

x Y e i i σλρ=, (5

)

计算出前三个主成分与各原始变量的相关系数如下表:

相关文档
最新文档