空气污染研究的主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
针对问题一,首先将数据标准化,计算样本协方差矩阵和相关矩 阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量, 贡献率和累计贡献率,确定选取成分个数,列出主成分方程并解释主 成分意义。
针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达 到 80%,就可以反映原始数据的变化,并且对所选取的主成分做出解
Yi ei1x1 ei2x 2 ei3x3 eip x p ,(i 1,2,3, ,p)
(1) 根 据 已 有 数 据 计 算 得 样 本 x (x1, x2, x3,, xp )T 的 均 值 向 量 x (x1, x2, x3,, xp )T 为 根据协方差矩阵计算公式
1 n 1
0.5927
0.5123
-0.4373
0.7452
0.2305
0.2350
0.4922
-0.6714
0.1745
0.4884
0.3553
0.6072
由表
4
可看出,Y1 与
X 3、
X
5
相关度较高,
Y1
近似是
7
个变量
的等权重之和,反映了空气质量的综合指标,Y1 值越大,空气质量越
差。
Y2

X
3
相关度较低,由相关矩阵的主成分权重系数(即特征向
利用第i 个主成分的贡献率
p
i
k
k 1
(3)
及前 k 个主成分的累计贡献率
k
p
s t
s 1
t 1
(4
) 代入数据计算得 的各标准化主成分的贡献率及累计贡献率(如表 1 所 示 ), 可 以 看 出 , 前 三 个 标 准 化 样 本 的 累 计 贡 献 率 已 经 达 到
98.6968%,故只需提取前三个主成分即可:
Y1 近似是 7 个变量的等权重之和,反映了空气质量的综合指标, Y1 值越大,空气质量越差。综合考虑来Y1 ,Y2 和Y3 来评判影响空气 污染的重要指标。 六、模型评价 模型优点: (1) 用主成分分析方法能够较好地揭示污染物于污染程度之间的关
系; (2) 该模型所用工具较易操作; (3) 主成分分析法是从定量的角度出发,充分利用全部数据当中所
0.0740
0.0626
0.4111
-0.1274
-0.2369
0.9585
-0.3521
-0.9299
-0.1041
-0.0613
-0.1824
0.4168
由表可看出,Y1 与 x2 相关度较高,而由相关矩阵的主成分权重系 数(即特征向量 e1 中的各个值)知,太阳辐射对空气污染的影响最大; Y2 与 x6 相关度较高,由相关矩阵的主成分权重系数(即特征向量 e2 中 的各个值)知,O3 对空气污染的影响较大;Y3 与 x5 相关度较高,同理, 由相关矩阵的主成分权重系数(即特征向量 e3 中的各个值)知,NO2 对 空气污染的影响较大。考虑前三个主成分的贡献率依次降低,得出结 论:影响空气污染的最重要因素为太阳辐射。由于 x2 的方差较大,第
97.7729
7
0.1559
2.2271
100.00
可以看出,当特征值大于 1 时,提取前三个标准化样本的累计贡献率
为 70.3833%。
记主成分向量为 由
Y (Y1,Y2,Y3,Y4,Y5,Y6,Y7)
Y PT X , P (e1, e2, e3, e4, e5, e6, e7) 则 X 的前三个主成分分别为
符号含义
样本方差
原始变量
样本主成分
样本协方差
样本相关矩阵
样本平均值
协方差矩阵
特征向量矩阵
矩阵的特征值
矩阵的特征向量
信息提取率
五、问题求解
5.1 协方差矩阵主成分分析
设 是 x (x1, x2, x3,, xp )T 的协方差矩阵, 的特征值与正交化特征向 量分别为 1 2 3 p 0 及 e1, e2 , e3 ,, ep ,且 x 的第 i 个主成分为
空气污染研究的主成分分析
一、提出问题 本文对于给定的某城市 42 天中午 12 点的空气污染数据进行主成
分分析,主要解决以下几个问题: (1) 分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二
者的结果差异; (2) 对原始数据的变化选取三个或者更少的主成分反映,并对所选
的主成分做出解释。 二、分析问题
包含的信息。所确定的指标权数是基于数据分析而得到的指标 间的内在结构关系,具有较好的客观性;能有效消除不相关指 标的影响,从而可进行有针对性的定量化评价;得到的综合指 标之间相互独立,不仅简化了评价系统,还减少了信息的交叉
和冗余。 (4) 方法计算简便,数学物理意义明确,有较强的可操作性和一定
的推广应用。 模型缺点: (1) 尚未考虑到其他变量的影响,存在预测误差; (2) 该模型未给出图像,难以反映各变量对空气污染程度的影响; (3) 从主成分分析方法本身来看,还有许多方面是不能替代定性分
5.3 差异性
从协方差矩阵出发,对所有变量进行主成分分析,何从相关矩阵
出发做主成分分析,两个方向得出的结果显示,原变量在第一主成分
和第二主成分中的相对重要性,由于标准化而有很大变化。从协方差
矩阵的角度进行主成分分析,所得第一主成分中,权重系数分别为
-0.01、0.9922、0.941、-0.0047、0.0243、0.1124、0.0023,二重相对
析方法的,只能说它在定性向定量转化过程中发挥了一定的效 能。 模型推广: 利用主成分综合原始变量的信息,达到降低原始变量维数的目 的,进而利用前几个主成分的得分的低维数据做进一步分析,有主成 分分析法构造回归模型,把各成分作为新的自变量代替原始自变量 x 作回归分析。
矩阵的角度进行主成分分析,所得的第一主成分分析,权重系数为 -0.238、0.2056、0.5511、0.3776、0.4980、0.3246、0.3194。两者差距 很大,并且在第二主成分中的两个系数相差更远。因此,由协方差矩 阵和相关矩阵所得的主成分一般是不同的。
为了满足样本主成分累计贡献率达到 80%以上,从相关矩阵出发 做的主成分分析应保留 4 个主成分,而从协方差矩阵来看,只保留 1 个主成分即可。由此可知,用协方差矩阵进行主成分分析更能简化运 算。本文中,由于设计的各变量的变化范围差异不大,因此应从先关 矩阵出发求主成分比较合理。
释。
三、模型假设
1、影响污染程度的变量只有本文中所提到的变量;
2、随机选取的 42 天; 3、题目中所提到的城市是平衡发展,政府对环境治理干预较小,即
此城市的环境不会出现强烈波动;
4、题目中所给的污染浓度及气象参数有效,数据都准确可靠,同时 不考虑人为因素、检测仪器精确度不同等影响。
四、符号说明
符号
0.1517
99.9398
7 记主成分向量为 由
0.2096
0.0601
100.0000
Y (Y1,Y2 ,Y3 ,Y4 ,Y5 .Y6 ,Y7 )
Y PT X , P (e1, e2 , e3 , e4 , e5 , e6 , e7 )
知 x 的前三个主成分分别为
因此,用前三个主成分代替原来 7 个变量,信息损失量较小。

e2
中的各个值)知,CO
对空气污染指标
y2
的影响较小;Y3

X
1

X 7 相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量 e3
中的各个值)知,风速和 HC 对空气污染的影响较大。考虑前三个主
成分的贡献率之和达到 70.3833%,因此综合考虑来Y1 ,Y2 和Y3 来评
判影响空气污染的重要指标。
进一步由Yi 与 X i 的相关系数
Yi ,xi
i jj
eij
(5
)
计算出前三个主成分与各原始变量的相关系数如下表:

相关 变

表主2成前分三个主成分与各原始变量的相关系数 数

0.1087
0.2576
-0.0672
-0.9994
0.0357
-0.0014
-0.1937
-0.4181
0.4675
主成分分析旨在利用降维的思想,把多指标转化为少数几个综合 指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考 虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的 某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反 映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此 利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂 性。
利用特征值计算公式 E 0代入数据可求得 的特征值 i 与单位 正交化特征向量 ei(i 1,2,3,,7) 分别为
利用第i 个主成分的贡献率
i p
(8)
及前 k 个主成分的累计贡献率
k
s p
s 1
(9) 其中 p 7 。计算 的各标准化主成分的贡献率及累计贡献率(如表 3 所示)。
此时,由于
X
(
X1
,
X
2
,
X
3
,
X
4,
X
5
,
X
6
,
X
7
)T
的协方差矩阵即为
x (x1, x2 , x3, x4 , x5, x6 , x7 )T 的相关矩阵 (ij ) p p 其中
ij
E( X i ,Yj )
Cov( X i , X ii jj
j)
(7) Cov( X i , X j ) 为 X i , X j 的协方差。 代入数据计算得到样本相关矩阵为
表 1 的各标准化主成分的贡献率及累计贡献率
贡献率(%)
累计贡献率 (%)
1
304.2579
87.2948
87.2948
2
28.2761
8.1127
95.4075
3
11.4645
3.2893
98.6968
4
2.5243
0.7242
99.4210
5
1.2795
0.3671
99.7881
6
0.5287
一主成分主要由变量 x2 控制,所以所得结论与实际不符。
5.2 样本相关矩阵主成分分析
利用标准化公式对原数据 X (x1, x2,, x7)进行标准化处理得到一
组新的数据
X
*
(
X
* 1
,
X
* 2
,,
X
* 7
)

即令
Xi
xi
i ii
,i
1,2,,7
(6)
其中 i 为 xi 的平均值, ii 为 xi 的方差。
n i1
(xi
x)( xi
x)T
(2) 代入数据可求得随机变量 x (x1, x2, x3, x4, x5, x6, x7 )T 相应的样本协方差矩 阵为
利用特征值计算公式 E 0代入数据可求得 的特征值 i 与对应 单位正交化特征向量 ei (i 1,2,,7) 分别为 1 303 .6941 , 2 28.3132 , 3 11.4674 , 4 2.5494 , 5 1.4703 , 6 0.5479 , 7 0.2243 ,
表 3 的各标准化主成分的贡献率及累计贡献率
贡献率(%)
累计贡献率 (%)
1
2.3368
33.3824
33.3824
2
1.3860
ቤተ መጻሕፍቲ ባይዱ
19.7997
53.1821
3
1.2041
17.2012
70.3833
4
0.7271
10.3870
80.7703
5
0.6535
9.3356
90.1059
6
0.5367
7.6670
由Yi 与 X i 的相关系数
(10)
e Yi , Xi
i ij
计算出前三个主成分与各原始变量的相关系数如表:

相 变

表主4 前三个主成分与各原始变量的相关系数 成
系分 量数
-0.3681
0.3255
0.6936
0.3145
-0.6202
0.2502
0.8307
-0.0046
-0.1467
相关文档
最新文档