6信息分类方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(3) 选择因子分析的方法(method of factor analysis)
• 主成分分析法是一种值得推荐的方法,同时也是应用比较广泛的一 类方法。
6
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
1.4144
17
0.4858
1.3462
6
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
地区名称 内蒙古 广西 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆
人口综合素质的排名 7 4 3 1 8 5 12 2 9 11 10 6
7
7
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
(6)因子解释(interpretation of factors)
(7) 因子得分(factor scores)
• Wij为第i个因子在第j个变量处的因子得分系数。并不等于因子载荷
5
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6.1.2因子分析的过程
(1)问题的定义(problem of formulation) :变量必须是区间和比率 变量;样本容量必须是变量的4-5倍。 (2) 计算并检验协方差(相关)矩阵: • 巴特利特球体检验(大的检验值意味着检验结果的显著性) • KMO测度(大于0.5可以进行,大于0.7以上是满意)
12
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
13
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6、信息分类方法
——因子分析与聚类分析
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6.1因子分析
2
2
Copyright 2006 Thomson Corporation
总因子得 分 1.27 2.0377 2.077 3.5844 1.1484 1.4069 -0.3614 2.5686 1.0466
排名 7 4 3 1 8 5 12 2 9
青海
宁夏
0.0284
0.4301
0.1159
1.0133
1.0948
1.079
0.2141
0.6406
11
10
新疆
1.5354
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
地区名称 内蒙古 广西 重庆 四川 贵州 云南 西藏 陕西 甘肃
百度文库
因子得分 F1 1.5425 2.5149 2.7815 5.0231 1.2427 1.77 -0.3788 3.343 1.2236 F2 1.592 1.8232 1.8454 2.1943 0.5336 0.4874 -1.1921 1.7789 0.7483 F3 -0.2283 0.314 -0.5661 -0.7517 1.4706 0.9706 0.6715 0.2824 0.6603
.910
-.387 .069
高等学校毕业生人数
专利申请受理量(件) 专利申请授权量(件)
.927
.908 .915
.239
.185 .165
-.108
-.296 -.303
专利申请授权量(件)
教育经费(万元)
.920
.916
.326
.287
-.069
.143
15
教育经费(万元)
.932
.249
-.104
… xp=ap1F1+ap2F2+…+apmFm+εp
称为因子模型。
4
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
模型中的F1,F2,…,Fm,被称作公共因子(也称主因子),它们是在 各个原观测变量的表达式中都出现的因子,是相互独立的不可观测 的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。 ε1,ε2,…,εp被称作特殊因子,是向量X的分量Xi(i=1,2,…n)所特 有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是 相互独立的。 模型中矩阵A=(aij)的元素aij称作因子载荷,aij的绝对值越大,表 明Xi与Fj的相依程度越大。
教育经费 X10
10
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
(2)样本数据的处理 • 考虑到各指标数据的差异以及使得分析结果更加有效,首 先将样本数据进行标准化处理,处理后的数据消除了量纲 之间的差异。 • 保存在文件“西部地区人口素质.sav”中。
按F1排名 6 4 3 1 8 5 12 2 9 11 10 7
18
按F2排名 5 3 2 1 9 10 12 4 8 11 7 6
按F3排名 10 8 11 12 1 4 5 9 6 2 3 7
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
19
19 Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
聚类分析的原理(续)
20
20 Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
旋转后的因子载荷矩阵
Component 1 抚养比(%) 文盲率(%) 人均受教育年数(年) -.042 -.323 .170 2 -.423 -.923 .964 3 .832 .014 -.030
妇女平均存活子女数
平均预期寿命(岁) 高等学校数(所)
-.251
.381 .940
.130
.721 .279
6.2 聚类分析
6.2.1 聚类分析的原理
聚类分析是根据事物本身的特性研究个体分类的方法,是多元分析与 当代分类学结合的产物,又称群分析、点群分析或簇类分析。
基本的思想是:认为研究的样本或指标(变量)之间存在着程度不同 的相似性(亲疏关系)。于是根据样本的多个观测指标,将其置于多 维空间,按照它们空间关系的亲疏程度进行分类。关系密切的聚合到 一个小的分类单位,疏远的聚合到一个大的分类单位。
更可进一步从原始观测量推出因子的值,然后用这些因子代替原来变 量进行其他统计分析。
3
3
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
模型
x1=a11F1+a12F2+…+a1mFm+ε1 x2=a21F1+a22F2+…+a2mFm+ε2
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6.1.1 因子分析的基本原理
因子分析是一种主要用于数据化简和降维的多元统计分析方法。
它将相关性较强的几个变量归在同一个类中,每一类赋予新的名称, 成为一个因子,反映事物的一个方面,或者说一个维度。这样,少数 的几个因子就能够代表数据的基本结构,反映信息的本质特征。
(8)模型的适合度(model fitness) • 因子分析的最后,该对构建的模型是否适合问题本身有一个认识,这 就涉及到模型的适合度的判断。这种判断常常基于残差矩阵而进行。
8
8
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
Diligent - Prudent - Dedicated - Honest
6.2.2聚类分析的类型
按照分类对象的不同可分为:
Q型聚类分析和R型聚类分析,前者是样品归并,后者是变量归并;
按照实施聚类的方法分为: 系统聚类法、动态聚类法等,系统聚类分析也称为分层聚类法,动态 聚类法也称快速聚类法,或K-均值聚类。 在聚类过程中,所需要的计算量非常大 。
(4) 确定因子数目(number of factors)
• 除了经验判断外,特征值法是选用较多的判断方法;因子碎石
图(scree plot)提供了因子数目和特征值大小的图形表示。可
以用于直观的判定因子数目。 (5)因子旋转(rotation of factors) • 因子旋转目的是使某些变量在某个因子上负载高,而在其它因 子上的负载则显著的低。
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
(1)指标样本数据的选取
抚养比 X1
文盲率 X2
人均受教育 年 X3
高等学校毕 业生人数 X7
妇女平均存 活子女数 X4
专利申请受 理量 X8
平均预期寿 命 X5
高等学校数 X6
专利申请授权量 X9
11
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
(3)利用SPSS进行因子分析
Analyze→Data reduction→Factor
输出各个分析变 量的初始共同度, 特征值以及解释 方差的百分比
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
因子
F1 X6,X7,X8,X9,X10 科教因子
F2 X2,X3,X5 人力因子
F3 X1,X4 负担因子
被解释指标
因子命名
16
21
21 Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
6.2.3 聚类分析的基本步骤
将数据标准化 计算对象之间的距离
22
22 Copyright 2006 Thomson Corporation
(4)结果分析
• KMO测度值大于0.5 • 巴特利特球体检验值 查表也可以通过
14
Copyright 2006 Thomson Corporation
勤奋、谨慎、敬业、诚信
Diligent - Prudent - Dedicated - Honest
因子载荷矩阵
Component 1 抚养比(%) 文盲率(%) 人均受教育年数(年) 妇女平均存活子女数 平均预期寿命(岁) 高等学校数(所) 高等学校毕业生人数 专利申请受理量(件) -.489 -.724 .624 -.410 .782 .886 .909 .921 2 .419 .595 -.714 -.147 -.436 .284 .292 .307 3 .676 -.277 .243 .848 -.115 .316 .136 -.060
6.1.3示例:用因子分析法分析评价西部地区的人口
素质
• 由于我国地区经济发展的不平衡,使各地区人口素 质水平存在一定差异,尤其在西部地区。为了从宏
观上把握我国西部各地区人口素质水平,使用因子
分析法进行定量分析。为政府制定经济发展战略提 供科学依据。
9
Copyright 2006 Thomson Corporation
相关文档
最新文档