第六章 信息分类方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3) 选择因子分析的方法(method of factor analysis)
• 主成分分析法是一种值得推荐的方法,同时也是应用比较广泛的一 类方法。
6
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
因子
F1 X6,X7,X8,X9,X10 科教因子
F2 X2,X3,X5 人力因子
F3 X1,X4 负担因子
被解释指标
因子命名
16
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
(4)结果分析
勤奋、谨慎、敬业、诚信 Diligent - Prudent - Dedicated - Honest
• KMO测度值大于0.5 • 巴特利特球体检验值 查表也可以通过
14
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
勤奋、谨慎、敬业、诚信 因子载荷矩阵
Component 1 抚养比(%) 文盲率(%) 人均受教育年数(年) 妇女平均存活子女数 平均预期寿命(岁) 高等学校数(所) 高等学校毕业生人数 专利申请受理量(件) -.489 -.724 .624 -.410 .782 .886 .909 .921 2 .419 .595 -.714 -.147 -.436 .284 .292 .307 3 .676 -.277 .243 .848 -.115 .316 .136 -.060
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6.1.3示例:用因子分析法分析评价西部地区的人口素质
勤奋、谨慎、敬业、诚信 Diligent - Prudent - Dedicated - Honest
• 由于我国地区经济发展的不平衡,使各地区人口素 质水平存在一定差异,尤其在西部地区。为了从宏
Diligent - Prudent - Dedicated 旋转后的因子载荷矩阵 - Honest
Component 1 抚养比(%) 文盲率(%) 人均受教育年数(年) -.042 -.323 .170 2 -.423 -.923 .964 3 .832 .014 -.030
妇女平均存活子女数
平均预期寿命(岁) 高等学校数(所)
Diligent - Prudent - Dedicated - Honest
勤奋、谨慎、敬业、诚信 地区名称 人口综合素质的排名 7 内蒙古 广西 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 4 3 1 8 5 12 2 9 11 10 6
按F1排名Diligent - 2排名 - Dedicated - Honest 按F Prudent 按F3排名 6 5 10 4 3 1 8 5 12 2 9 11 10 7
抚养比 X1
文盲率 X2
人均受教育 年 X3
高等学校毕 业生人数 X7
妇女平均存 活子女数 X4
专利申请受 理量 X8
平均预期寿 命 X5
高等学校数 X6
专利申请授权量 X9
教育经费 X10
10
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
(7) 因子得分(factor scores)
• Wij为第i个因子在第j个变量处的因子得分系数。并不等于因子载荷
(8)模型的适合度(model fitness) • 因子分析的最后,该对构建的模型是否适合问题本身有一个认识,这 就涉及到模型的适合度的判断。这种判断常常基于残差矩阵而进行。
8
8
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
地区名称 内蒙古 广西 重庆 四川 贵州 云南 西藏 陕西 甘肃 F1 1.5425 2.5149 2.7815 5.0231 1.2427 1.77 -0.378Leabharlann Baidu 3.343 1.2236
因子得分 F2 1.592 1.8232 1.8454 2.1943 0.5336 0.4874 -1.1921 1.7789 0.7483
… xp=ap1F1+ap2F2+…+apmFm+εp
称为因子模型。
4
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
模型中的F1,F2,…,Fm,被称作公共因子(也称主因子),它们是在 勤奋、谨慎、敬业、诚信 Diligent - Prudent - Dedicated - Honest 各个原观测变量的表达式中都出现的因子,是相互独立的不可观测 的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。 ε1,ε2,…,εp被称作特殊因子,是向量X的分量Xi(i=1,2,…n)所特 有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是 相互独立的。 模型中矩阵A=(aij)的元素aij称作因子载荷,aij的绝对值越大,表 明Xi与Fj的相依程度越大。
观上把握我国西部各地区人口素质水平,使用因子
分析法进行定量分析。为政府制定经济发展战略提 供科学依据。
9
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
(1)指标样本数据的选取
勤奋、谨慎、敬业、诚信 Diligent - Prudent - Dedicated - Honest
7
7
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
(6)因子解释(interpretation of factors) Diligent - Prudent - Dedicated - Honest 勤奋、谨慎、敬业、诚信
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
(3)利用SPSS进行因子分析
勤奋、谨慎、敬业、诚信
Analyze→Data reduction→Factor
Diligent - Prudent - Dedicated - Honest
输出各个分析变 量的初始共同度, 特征值以及解释 方差的百分比
5
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6.1.2因子分析的过程
勤奋、谨慎、敬业、诚信
(1)问题的定义(problem of formulation) :变量必须是区间和比率 Diligent - Prudent - Dedicated - Honest 变量;样本容量必须是变量的4-5倍。 (2) 计算并检验协方差(相关)矩阵: • 巴特利特球体检验(大的检验值意味着检验结果的显著性) • KMO测度(大于0.5可以进行,大于0.7以上是满意)
(2)样本数据的处理 • 考虑到各指标数据的差异以及使得分析结果更加有效,首 勤奋、谨慎、敬业、诚信 Diligent - Prudent - Dedicated - Honest 先将样本数据进行标准化处理,处理后的数据消除了量纲 之间的差异。 • 保存在文件“西部地区人口素质.sav”中。
11
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6信息分类方法
——因子分析与聚类分析
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6.1因子分析
勤奋、谨慎、敬业、诚信 Diligent - Prudent - Dedicated - Honest
-.251
.381 .940
.130
.721 .279
.910
-.387 .069
高等学校毕业生人数
专利申请受理量(件) 专利申请授权量(件)
.927
.908 .915
.239
.185 .165
-.108
-.296 -.303
专利申请授权量(件)
教育经费(万元)
.920
.916
.326
.287
-.069
Diligent - Prudent - Dedicated - Honest 总因子得
F3 -0.2283 0.314 -0.5661 -0.7517 1.4706 0.9706 0.6715 0.2824 0.6603 1.27 2.0377 2.077 3.5844 1.1484 1.4069 -0.3614 2.5686 1.0466
12
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
13
Copyright 2006 Thomson Corporation
.143
15
教育经费(万元)
.932
.249
-.104
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
分
排名 7 4 3 1 8 5 12 2 9
青海
宁夏
0.0284
0.4301
0.1159
1.0133
1.0948
1.079
0.2141
0.6406
11
10
新疆
1.5354
1.4144
17
0.4858
1.3462
6
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
模型
x1=a11F1+a12F2+…+a1mFm+ε1 x2=a21F1+a22F2+…+a2mFm+ε2
(4) 确定因子数目(number 勤奋、谨慎、敬业、诚信
of factors) - Prudent - Dedicated - Honest Diligent
• 除了经验判断外,特征值法是选用较多的判断方法;因子碎石
图(scree plot)提供了因子数目和特征值大小的图形表示。可
以用于直观的判定因子数目。 (5)因子旋转(rotation of factors) • 因子旋转目的是使某些变量在某个因子上负载高,而在其它因 子上的负载则显著的低。
2
2
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6.1.1 因子分析的基本原理
勤奋、谨慎、敬业、诚信
因子分析是一种主要用于数据化简和降维的多元统计分析方法。
Diligent - Prudent - Dedicated - Honest
它将相关性较强的几个变量归在同一个类中,每一类赋予新的名称, 成为一个因子,反映事物的一个方面,或者说一个维度。这样,少数 的几个因子就能够代表数据的基本结构,反映信息的本质特征。
更可进一步从原始观测量推出因子的值,然后用这些因子代替原来变 量进行其他统计分析。
3
3
Copyright 2006 Thomson Corporation