多元统计分析 课程设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析课程设计
题目:《因子分析在环境污染方面的应用》
姓名:王厅厅
专业班级:统计学2014级2班
学院:数学与系统科学学院
时间:2016年1月 3 日
目录
1.摘要: (3)
2.引言: (3)
2.1背景 (3)
2.2问题的研究意义 (3)
2.3方法介绍 (4)
3.实证分析 (12)
3.1指标 (12)
3.2原始数据 (12)
3.3数据来源 (15)
3.4分析过程: (15)
4.结论及建议 (27)
5.参考文献 (28)
1.摘要:
中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。但是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。
关键词:环境污染水污染大气污染因子分析2.引言:
2.1背景:
我国的环境保护取得了明显的成就,部分地区环境质量有所改善。但是,从整体上看,我国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。
2.2问题的研究意义:
为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染
原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题,这对综合治理环境问题具有重要意义。 2.3方法介绍
因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和
信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。
因子分析的步骤:
·因子分析的前提条件:要求原有变量之间存在较强的相关关系。 ·因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。 若存在随机向量
)
(),,(1p q F F F q ≤'= 及
),,(1'
=p εεε ,使
⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡+⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡p q pq p q p F F a a a a X X εε 1111111
简记为ε+=AF X ,且 (1)
q
I F D F E ==)(,0)((标准化);
(2)
⎥⎥
⎥
⎦⎤⎢⎢⎢⎣⎡==221)(,0)(p D E σσεε (中心化); (3)0),(=F Cov ε(不相关)。
那么,称指标向量X 具有正交因子结构(所有因子相互正交,即
j
i q j i F F E j i ≠==,,,1,,0)( );称此模型为正交因子模型;称
q
F F ,,1 为
公共因子(对整个X 有影响的公共因素);称p
εε,,1 为特殊因子(只
对X 的各对应分量有影响的特殊因素);称
q
p ij a A ⨯=)(为因子载荷矩阵,
ij
a 为第i 个指标在第j 个公共因子上的载荷。
因子载荷矩阵的建立
因子分析的最基本任务之一就是建立因子载荷矩阵A 。 对于正交因子模型,有
=)(X D )(εD A A +'
若X 已标准化,则
=)(X R )(εD A A +'
在绝大多数实际问题中,)(εD 往往都是未知的,由此求出A 是不可能的,这时可以通过主成分分析给出一组公共因子及其因子载荷矩阵。 具体方法如下: (1)求出R 的特征根
1>≥≥p λλ ,以及相应的单位特征向量
)
,,1(),,(1)(p i u u u ip i i ='=。
(2)建立主成分。
,)(X u Y i i '=X
U Y '=
)
,,()()1(p u u U =是正交矩阵。
∧
=⎥⎥⎥
⎦⎤⎢⎢⎢⎣⎡='=='=p U X R U Y D X E U Y E λλ 1)()(,0)()(
(3)构造公共因子,并建立因子载荷矩阵。
Y U UY X 2
12
1
-∧∧== (逆问题)
令
Y F 2
1-∧=
⎥⎥⎥⎦⎤⎢⎢
⎢
⎣
⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=∧=p pp p p u u u u U A λλ
111112
1
⎥⎥⎥⎦⎤
⎢⎢⎢⎣⎡=pp p p p p u u
u u λλλλ
111111 容易验证:
p
I F D F E ==)(,0)(
X 具有如下正交因子结构:
AF X = (Y F U A ----,?)
完全忽略了特殊因子的影响。
p
i F u F u F u F u X p
pi p q i q q q qi q i i ,,11)1(1111 =+++++=+++λλλλ
p
pi p q i q q i F u F u λλε++=+++ 1)1(1
i
q qi q i i F u F u X ελλ+++= 111
若只取前q 个主成分,且令
=A ⎥⎥⎥⎦⎤
⎢⎢⎢⎣⎡qp q p
q q u u u u λλλλ
111111,),,(1'=q F F F ,),,(1'=p εεε 则有
ε+=AF X
其中
,q I F D F E ==)(,0)(A A R D F Cov E '
-===)(,0),(,0)(εεε。
忽略了不重要的公共因子,由特殊因子解析。
换句话说,用主成分法获得了X 的正交因子分解(近似)中的F A ,。 这里的主要问题是如何确定因子数k 方法一:根据特征值确定因子数。
观察各个特征值,一般取特征值大于1的。 方法二:根据因子的累计方差贡献率确定因子数。
通常选取累计方差贡献率大于0.85时的特征值个数为因子个数k 。
·使因子具有命名解释性