环境统计学环境因子分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

f1 f2
标 或
f3


tn1 f1 tn2 f2 tn3 f3 tnn fn
fn
X ( f1, f2 , f3,, fn )
❖与回归分析比较
因子分析与回归分析不同,因子分析中的因 子是一个比较抽象的概念,而回归因子有非常明 确的实际意义;
回归分析:一个结果(变量)与多个变量的关系
水域SS
X (x1, x2,, x6 )', A (aij )62
(1, 2,, 6 )', F ( f1, f2 )'
U (1, 2 ,3,,6 )'
X AF U
2 因子分析模型及求解
通常先对X作标准化处理,使标准化得到的新 变量均值为0,方差为1.这样就有
xi ai1 f1 ai2 f2 aik fk i
环境统计学
❖第1章 ❖第2章 ❖第3章 ❖第4章 ❖第5章 ❖第6章 ❖第7章 ❖第8章
基本概念
绪论 基本原理 常用的统计学术语
随机事件 概率
概率统计基础
数学特征 概率分布
统计回推归断模型
环境一元线性回归分析
最小二乘法 显回著归性模检型验
环境多元线性回归分析
最小二乘法 SPSS求解
聚类要素的显数著据性处检理验
因子模型
十项全能例
100米跑 a11短跑速度 a12爆发性臂力 a13爆发性腿力 a14耐力1 跳远 a21短跑速度 a22爆发性臂力 a23爆发性腿力 a24耐力2 铅球 a31短跑速度 a32爆发性臂力 a33爆发性腿力 a34耐力3
1500米 a10,1短跑速度 a10,2爆发性臂力 a10,3爆发性腿力 a10,4耐力10
环境系统聚类分析 距离的计算环境应用 聚类分析常用方法
环境判别分析 距 Fis离he判r判别别法S环P法境SS应求用解 Bayes主判成别分法分析概述
环境主成分分析 主成分分析计算原理 主成分分析性质
SPSS求解和环境应用
人工神经网络
环境因子分析
环境因子分析
1 概述
一般认为因子分析是从Charles Spearman在1904年发表 的文章《对智力测验得分进行统计分析》开始,他提 出这种方法用来解决智力测验得分的统计方法。目前 因子分析在心理学、社会学、经济学等学科中都取得 了成功的应用,是多元统计分析中典型方法之一。
E(U) 0,
Cov(U
)
diag(12
,
,
2 p
)
Cov (F,U)=0
54.80
22.75
78.63
53.90
24.73
76.26
53.76
22.50
61.80
43.42
18.38
50.91
35.21
15.70
46.71
31.00
15.71
49.58
30.06
19.53
48.75
30.05
18.70
42.87
27.89
14.98
46.94
28.23
18.71
43.29
其中 f1, f2 , f2 , f4 表示四个因子,称为公共
因子(common factor), aij 称为 在因子 xi
上的因子载荷(loading),i是 xi 的均值, i 是 xi
不能被四个因子解释的部分,称之为特殊因子。
原始观测的随机变量可分解成 不可观测的两个随机向量的线性组合
xi i ai1 f1 ai2 f2 ai3 f3 ai4 f4 i , i 1,2,,10
第xi 指标 xi i ai1 f1 ai2 f2 i
x1 1 a11 f1 a12 f 2 1 x2 2 a21 f1 a22 f 2 2 x3 3 a31 f1 a32 f 2 3 x4 4 a41 f1 a42 f 2 4 x5 5 a51 f1 a52 f 2 5 x6 6 a61 f1 a62 f 2 6
环境统计学
(Environmental Statistics )
❖ 授课教师:林红军 ❖ 授课时间:2010学年第二学期
环境科学系 办公地点:校8幢123室,17幢616室 E-mail: hjlin@zjnu.cn, linhonjun@163.com Cell:159 5845 9856, 679856
x1 :申请书的形式 x2 : 外貌 x3 : 专业能力
x4 : 讨人喜欢
x5:自信心 x6 : 精明
x7 : 诚实
x8 : 推销能力 x9 : 经验
x10 :积极性
x11 : 抱负
x12 : 理解能力
x13 : 潜力
x14 : 交际能力 x15 : 适应性
通过因子分析,这15个方面可以归结为应聘者的 外露能力、讨人喜欢的程度、经验、专业能力和外 貌这五个因子。
因子得分计算公式
短跑速度 11x1s 12 x2s x 1,10 10s
爆发性臂力 21x1s 22 x2s x 2,10 10s
爆发性腿力 x 31 1s 32 x2s x 3,10 10s
耐力
x 41 1s 42 x2s x 4,10 10s
十项得分与这四个因子之间的关系可以 描述为如下的因子模型: xi i ai1 f1 ai2 f2 ai3 f3 ai4 f4 i , i 1,2,,10
于是,原始观测的随机变量X可分解为不可观测(或未 做观测)的两个随机向量的线性组合: 一是对整个X有影响的公共因素——公因子; 二是只对各个对应分量有影响的特殊因素——特殊因子
1 概 述-基本任务
建立因子载荷矩阵 给出各公共因子的合理解释及命名 若有必要(当难以招到合理解释的公共因子) 时,进一步作因子旋转
员的比赛数据,对第二次世界大战以来奥林匹克十 项全能比赛的得分作了因子分析研究。
远 这x2 十 ,项铅全球能项x3 目,为跳:高100x米4 跑,4x01 0,米跳
跑 跳x远1,xx5x28,,,1标,1x0枪1米0 跨经x栏标9 ,准x1化650后,0所米铁作饼x1的0。x因7 对子,分撑析杆
表明,十项得分基本上可归结于他们的 短跑速度,爆发性臂力、爆发性腿力和耐力, 每一方面都称为一个因子。
因子分析的目的是,用几个不可观测的隐变量来
解释原始变量间的协方差关系。
X (x11, x22 , x33,···, xnn )
n 个 指
t11 t12 t13 t1n t21 f1 t22 f2 t23 f3 t2n fn t31 f1 t32 f2 t33 f3 t3n fn
总得分
190.21 189.43 189.28 153.63 122.14 111.14 103.95 101.13
96.89 96.46 94.24 89.51 84.38 83.36 83.08 72.90 72.31 67.46 65.71 65.29
人才培养
得分 研究生培养 本科生培养
77.55
0.63 0.57 1
R 0.09 0.16 0.14 1
0.09 0.16 0.15 0.57 1
0.00 0.09 0.09 0.63 0.72 1
COD、BOD5、NH3、TSP、SO2、NOX
水环境因素
大气环境因素
f1
f2
COD指标 x1 1 a11 f1 a12 f2 1
第xi 指标 xi i ai1 f1 ai2 f2 i
分省 排名

1

2

1

1

2

1

1

2

1

1

1

1

1

1

1

1

1

2

3

4
1 概述
1 概 述-基本思想
对于直接可观测的随机变量,根据其相关性大小,使得 同组内的变量之间相关性较高,不同组的变量相关性较 低。每组变量代表一个基本结构,用一个不可观测的综 合变量表示,这个基本结构称为公因子
27.98
15.31
45.55
27.11
18.44
34.99
24.23
10.76
39.04
23.63
15.41
42.09
22.96
19.13
33.24
20.71
12.53
35.61
21.19
14.42
32.72
18.49
14.23
32.33
17.86
14.47
30.44
18.29
12.15
科学研究
得分
主成分分析的一般目的:
国民经济指标
股息
雇主补贴 利息
纯公共支出
消费资料 净增库存
人口
生产指数
外贸盈余
变量的降维
主成分的解释
国民经济指标
总收入F1 总收入变化率F2 经济发展趋势F3
17个变量
3个变量
❖主成分分析例子
样本 x1
x2
COD BOD 氨氮 SS 浊度 pH 色度
因子分析:潜在的假想变量和随机影响变量的线 性组合表示原始变量。
则称X为具有k个公共因子的因子模型
X AF U
xi ai1 f1 ai2 f2 aik fk i
如果满足
(1)fi的均数为0,方差为1;
(2) i的均数为0,方差为δi;
(3) fi与 i相互独立.
(4) fi与fj相互独立(i≠j)
则称该因子模型为正交因子模型。
E(F)=0, Cov (F)=Ik
40.31
9.21
50.95
49.16
1.79
43.96
33.82
10.15
49.39
47.33
2.06
44.32
35.26
9.06
40.98
30.72
10.26
39.66
22.32
17.34
36.70
33.29
3.41
34.75
30.36
4.39
33.38
1.62
31.76
34.85
16.04
18.81
因子分析(factor analysis)也是一种降维、简化数据的 技术。它通过研究众多变量之间的内部依赖关系,探 求观测数据中的基本结构,并用少数几个“抽象”的 变量来表示其基本的数据结构。这几个抽象的变量被 称作“因子”,能反映原来众多变量的主要信息。原 始的变量是可观测的显在变量,而因子一般是不可观 测的潜在变量。
自然科学研究 社会科学研究
112.66
94.32
18.34
110.80
73.14
37.65
113.03
97.75
15.27
91.84
84.20
7.63
71.23
49.98
21.25
64.43
44.33
20.10
54.37
34.71
19.66
52.38
44.35
8.03
54.02
39.98
14.04
49.52
均值
公共因子 因子载荷
特殊因子
2 因子分析模型及求解
城市环境质量评价指标有:COD、BOD5、NH3、TSP、SO2和 NOX,现有100个样本,用 X (l) (xl1, xl2 ,, xl6 )' (l 1,2,,100 )
来表示。 COD、BOD5、NH3、TSP、SO2、NOX
1
0.72 1
BOD COD
因子分析:一个变量与多个假定的因子(变量)的关系
xn tn1 f1 tn2 f2 tn3 f3 tnn fn
X ( f1, f2 , f3,, fn )
抽象的概念
❖与回归分析比较

回归 分析
由因索果
因子 执果析因 分析

例1 林登(Linden)根据他收集的来自139名运动
1 概 述-分类
因 R型因子分析

R型的因子分析是对变量作因子分析

析 Q型因子分析
Q型因子分析是对样品作因子分析
主成分分析: 原始变量的线性组合表示新的综合变量, 即主成分;
X (x1 , x2 , x3 ,···, xnn )
n 个
n 个 综
y1 t11 t12 t13 t1n y2 t21 x1 t22 x2 t23 x3 t2n xn
指 标 或 变 量
合 指 标 或
y3
···
Fra Baidu bibliotek
t31
x1
t32 x2
t33 x3
t3n xn
变 量
yn tn1 x1
tn2 x2
tn3 x3
tnn xn
计算y1…yn的贡献大小,进行取舍
❖与主成分分析比较
定 主成分分析: 是一种通过降维技术把多个变量化 义 为少数几个主成分(即综合变量)的统计分析方法
考试的例子
1 概述
理科
文科
1 概述
员工人数
商品种类
资产规模 广告投入
商店的环境

年营业额

净利润 .
商店的服务

.

.
商品的价格
.
.
.
因子分析就是一种通过显在变量测评潜在变量,通 过具体指标测评抽象因子的统计分析方法。
1 概述
公司老板对48名应聘者进行面试,并给出他们在 15个方面所得的分数,这15个方面是:
1 概述
中国大学100强排名出炉
排名
校名
1 清华大学 2 北京大学 3 浙江大学 4 上海交通大学 5 复旦大学 6 南京大学 7 武汉大学 8 华中科技大学 9 中山大学 10 四川大学 11 哈尔滨工业大学 12 吉林大学 13 中国科学技术大学 14 西安交通大学 15 山东大学 16 南开大学 17 中南大学 18 东南大学 19 中国人民大学 20 北京师范大学
相关文档
最新文档