07第6章 因子分析
因子分析与对应分析
.0 .S 4
.0 .0 .4
专等 总 . 00o总 . 01 中
. 17 总
1. 63 专
. 82 中 . 4 ig总
. 8中
30 总 . 07 专
. 07 中
校人 .9 10r .1 00 .0 52 .5 99
1 .1 62 .0 8 . .3 8
返回
因子分析简单实例输出1
i
a
n
c
e
E
m
E
ig
s
e
n
o
v
f
a
lu
%
m
C
u% uo m
la f
t
uo
iv
la f
e
Co r
Vo t ia T %am a n o r l c t iap % e a no
l cn
5 7.1 463 7 . 8 66 . 47 6
4 63
66
6
9 5.2 337 3 . 7 93 . 99 9
xx32
21 31
f1 f1
22 32
f2 f2
2k 3k
fk fk
e2 e3
xm m1 f1 m2 f2 mk fk em
其中 x1 ~ xm 是对原始变量进行均值为0,标准差为1标准化后的变量。
特性方差V(e)
前k个因子,共性方差为:
k
Vc(xi)
2 ij
j 1
m
Vc(xi)
2 ij
j 1
返回
因子分析菜单
返回标的调查数据进行因子分析为例,本数据是美 国洛杉矶标准大城市统计区中的12个人口调查区的五个经济学变量的数据。
因子分析方法与SPSS
X4 :人均水资源(立方米/人)
X5:人均生物量(吨/人) X6:万人拥有的大学生数(人)
X7:万人拥有科学家、工程师数(人)
Rotated Factor Pattern FACTOR1 FACTOR2 FACTOR3 X1 -0.21522 -0.27397 0.89092 X2 0.63973 -0.28739 -0.28755 X3 -0.15791 0.06334 0.94855 X4 0.95898 -0.01501 -0.07556 X5 0.97224 -0.06778 -0.17535 X6 -0.11416 0.98328 -0.08300 X7 -0.11041 0.97851 -0.07246
四、对SPSS因子分析结果的解释
1. 取样适当性(KMO)检验 2. 共同性检查 3. 因子陡坡检查 4. 方差贡献率检验 5. 显示未转轴的因子矩阵 6. 分析转轴后的因子矩阵
1. 取样适当性(KMO)检验
—— KMO值越大,表示变量间的共同因子越多,越适合 进行因子分析,要求KMO>0.5 —— 要求Barlett’s的卡方值达到显著程度
个性方差=1-共同度
X1
0.072
X2
0.262
X3
0.100
X4
0.128
X5
0.099
X6
0.133
X7
0.081
X8
0.093
x9
0.035
ห้องสมุดไป่ตู้x10
0.061
3.因子陡坡检查,除去坡线平坦部分的因素 图中第三个因子以后较为平坦,故保留3个因素
Scree Plot
7
6
5
4
3
判定选矿过程影响因素主次关系的新方法——因子分析
原有变 量存 在相 关 关 系 ) 转 化 为 少 数 几 个 不 相关
关 于 主成分分 析 的坐标 变换 ,我们设 有两 个变
的综合 指 标 ( 即各 因子 间无 相 关 关 系 ) 的 一 种 多
元 统计 分析方 法 。选矿 各 因素之 间存 在 一定 的相关 关 系 ,因此 可利用 因子分Leabharlann 法进 行处 理 ,即用 较 少
KEY OR W DS:fc r ayi , n u n ef t ,m n rl rc sig at l s i e c o oa n s f l c a r iea po e s . n
众 所周 知 ,在 选 矿 过 程 中 ,尤 其 在 浮 选 过 程
中,存在着各种各样的因素影响选别指标和选别效 果 。研究 实 际 问题 时 ,我们 总是根 据我 们对类 似对 象所掌握 的信息或类似对象的生产情况来决策问题 的处 理 方式 ,并 希 望 尽 可 能多 地 收 集 相关 的 因素 ,
S S n d teo tie eut r ui befrtep atc n c re tpo u t n,i h spa tc a ig n g i igtepo u t n. P S,a h ban d rs l aes t l o rciei u rn rd ci s a h o t a rcia me n si udn rd ci l n h o
以期 能 比较全 面 、完 整地 把握 事实 。然 而 ,往 往有 些 因素可 能根本 不 存 在 对 问题 的影 响 或影 响 很 小 ,
1 因子分析的数学原理
因子 分析 的核 心是用 较少 的互 相独 立 的因子 反
映原 有变 量 的绝大部 分信 息 。设原 有 P个 变 量 ( 在 选矿工 程 中即 为影 响 因素或 选 别 指标 ) 。 , , , ,… , ,这 些 变 量 的均 值 为 0 ,标 准 差 为 1 ,
eviews中主成分分析和因子分析详解
灵活的编程接口
eviews提供了灵活的编程接口, 支持多种编程语言和脚本语言, 方便用户进行二次开发和定制。
未来发展趋势预测
大数据分析
随着大数据时代的到来,eviews将更加注重对大数据的处理和 分析能力,提高处理效率和准确性。
人工智能融合
eviews将与人工智能技术相结合,实现智能化数据分析,提高 分析的自动化程度和准确性。
总结在使用eviews进行主成分分析 和因子分析过程中可能遇到的常见问 题,并提供相应的解决方案。
07 总结与展望
CHAPTER
主成分分析和因子分析应用前景
多元统计分析方法
主成分分析和因子分析作为多元统计分析的重要方法,在多个领域 具有广泛的应用前景,如经济、金融、社会学、医学等。
数据降维
主成分分析通过线性变换将原始数据转换为新的变量,实现数据降 维,简化数据结构,提高数据处理的效率。
因子分析步骤
在eviews中导入数据,选择因子分析功能,按照步骤进行 操作,包括数据预处理、选择因子个数、进行因子旋转等 。
结果解读
根据因子分析结果,提取影响消费者行为的公共因子,分 析各因子的含义和重要性,以及各因子对不同消费者群体 的影响程度。
实战演练:eviews操作技巧分享
数据导入与预处理
介绍如何在eviews中导入数据、进 行数据清洗和预处理等操作。
主成分与因子分析功能使用
详细演示如何在eviews中使用主成 分分析和因子分析功能,包括参数设 置、模型选择等。
结果解读与可视化
分享如何解读主成分分析和因子分析 结果,以及如何利用eviews的图形 功能进行结果可视化展示。
常见问题与解决方案
结果解读
根据输出的结果,可以了解各因子对原始变量的解释程度 ,以及各样本在因子上的得分情况。同时,通过载荷矩阵 可以了解各原始变量与因子的关系。
因子分析new
5)取 hi2 1 / r ii,其中 r ii 是 R 1 的对角元素。
26
例 假定某地固定资产投资率 x1,通货膨胀率 x2 ,
失业率 x3 ,相关系数矩阵为
1 / 5 1 / 5 1 1/ 5 1 2/5 1 1 / 5 2 / 5
因子分析
1
汇报什么?
假定你是一个公司的财务经理,掌握了公司的所
有财务数据,比如固定资产、流动资金、每一笔 借贷的数额和期限、各种税费、工资支出、原料 消耗、产值、利润、折旧、职工人数、职工的分 工和教育程度等等。 如果让你向老总介绍公司近期财务状况,你能够 把这些指标和数字都原封不动地罗列出去吗? 当然不能。否则…… 你必须要把各个方面作出高度概括,从几个方面 (综合指标)简单明了地把情况说清楚。
xi i1 F1 i 2 F2 i 3 F3 i
i 1, , n
称 F1、F2、F3 是不可观测的潜在因子。 n 个变量 (指标)共享这三个因子,但是每个变量又有自己的 6 i 个性,不被包含的部分 ,称为特殊因子。
要了解和掌握糕行业的物价变动,只要 抓住上述三种潜在因子的价格变动即可。 可见,如果把握了主要矛盾、或者矛盾 的主要方面,分析和解决问题的思路就打 开了。因子分析的作用正在于此。
7
§ 1 因子分析模型
一、数学模型
设有 X i (i 1,2,, n)
n 个变量,如果均可表示为
X i i1F1 i 2 F2 im Fm i
( m n)
X 1 11 12 1m F1 1 X F 2 21 22 2 m 2 2 X n n1 n 2 nm Fm n
因子分析法在评价各省市优劣势方面的应用
F 2
0.3 4 36 05 08 . 6 O1 .8 - 0 47 - 2 0. O3 _ 816 05 37 .5 O 51 . 27 0 5 07 .6 0 7 07 .2 03 8 .9 06 9 . 4 0 8 27 .3 08 38 .6 O6o . 94 O2 12 .7 046 . 22 O.4 8 O5
公共 事务 国家机关社会 团体 ( 收人 ) 行政管理 费 柏( 出 ) 国 支 、 经济发展 国内生产总值 固定投资 抓 财政收人 X ̄ 服务 T 社会 :
状况
X 2 3
科技文化 科学事业 费 粕、 学研究 和综 合技术 X、 科 9科技三项 费用
Xx l教育经费 O
F1 F2 F3 F4 F5 F 6 F7 F 8 F 9
特征值
1 .3 62 6 25 6 .9 17 8 .9 14 4 .6 0.5 74 0.8 69 0.4 52 02 5 .7 0.0 28
贡献 率畅
6 .43 49 1 _8 O3 4 7. 9 11 5.5 86 301 . 4 2.5 75 2.6 19 10 9 .9 O.31 8
电力 消费 X1全年城镇居 民人均可支配收人 X2全年居 2 ̄ " 2 ̄ 国民生活状况 民人 均消费水平 。 全年农 民人均收人 X4全 年农 民人 、 2 . 均消费水平
X 7 8 X 9
a指标的选取观测变量国家机关社会团体收入x1行政管理费x3支出国防支出x4国内生产总值x5固定投资x6财政收入x7社会服务x2科学事业费x8科学研究和综合技术x9科技三项费用x10教育经费x11每万人拥有床位数x12每万人拥有卫生技术人员x13生支出费x14人口自然增长率x15社会保障补助x16会福利救助费x17进口x18出口x19外商投资x20电力消费x21全年城镇居民人均可支配收入x22全年居民人均消费水平x23全年农民人均收入x24全年农民人均消费水平x25潜在变量公共事务经济发展状况科技文化社会发展状况对外事务国民生活状况特征值及其贡献率因子f1f2f3f4f5f6f7f8f9f10f11特征值162362596179814640754068905420275020801160108贡献率6494310384719158563014275521691099083104630432累计贡献率6494375327825188837491389941439631297411982429870599138最大方差旋转后的因子载荷矩阵指标x1x2x3x4x5x6x7x8x9x10x11x12x13x14x15x16x17x18x19x20x21x22x23x24x25f10412208133015901227087380801808349075440549104767070080432704177058220436302573041170885508914054590571109716091390925909366因子f20433605608018002470381605537051270560707207039806490832708638060940271204622084050392101977060940515801474023510250501734f3053730024309493046510067700941004860050800174018940044200234004560492204458011102898000630001700052011140162702387015970133108定投资财政收入社会服务科学事业费科技三项费用教育经费进口出口电力消费全年城镇居民人均可支配收入全年居民人均消费水平全年农民人均收入全年农民人均消费水平因此把f1称为经济文化生活发展水平因子
主成分分析与因子分析
∴
( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方,作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率,
记为νi( i21 m)。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )
x1 x2
t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p
y1 y2
t
pp
y
p
选取前m个主成分,记
xˆ 1
一般地,第 i 主成分为:
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y
y1
,
1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分 的方差标准化,再求出主 成分的载荷矩阵。令:
因子分析法详细步骤-因子分析法操作步骤
心理学研究
在心理学研究中,因子分析法 常用于人格特质、智力等方面 的研究。
社会学研究
在社会学研究中,因子分析法 可用于社会结构、文化等方面
的研究。
02 因子分析法操作步骤
数据标准化
总结词
消除量纲和数量级的影响
详细描述
在进行因子分析之前,需要对数据进行标准化处理,即将原始数据转换为均值为0、标准差为1的标准化数据,以 消除不同量纲和数量级对分析结果的影响。
案例三:品牌定位研究
总结词
通过因子分析法,明确品牌的定位和竞争优 势,以便更好地进行市场推广和竞争策略制 定。
详细描述
首先,收集市场上同类竞争品牌的定位和竞 争优势数据。然后,利用因子分析法对这些 数据进行处理,提取出几个主要的因子,这 些因子代表了不同品牌的定位和竞争优势。 最后,根据因子分析的结果,明确自己品牌 的定位和竞争优势,制定相应的市场推广和 竞争策略,以提高品牌的市场份额和竞争力
要点二
详细描述
首先,收集大量关于消费者行为和偏好的数据,包括购买 行为、品牌选择、价格敏感度等。然后,利用因子分析法 对这些数据进行降维处理,提取出几个主要的因子,这些 因子代表了消费者不同的需求和偏好。最后,根据这些因 子对市场进行细分,将消费者划分为不同的群体,并为每 个群体制定相应的营销策略。
计算相关系数矩阵
总结词
评估变量间的相关性
详细描述
计算标准化数据的相关系数矩阵,用于评估变量之间的相关性。相关系数矩阵 是一个对称矩阵,矩阵中的元素表示不同变量之间的相关系数,用于衡量变量 间的关联程度。
因子提取
总结词
找出主要因子
详细描述
通过因子提取的方法,从相关系数矩阵中找出主要因子。常用的因子提取方法有主成分分析法和公因 子分析法等。这一步的目标是找出能够解释原始数据变异的少数几个公共因子。
因子分析
m
Xi的方差由两部分组成,第一部分hi 是全部(m个)公共因子对变量Xi的总 方差所作出的贡献,称为公因子方差; 第二部分σ 2i 由特定因子εi 产生的 方差,它仅与变量 Xi 有关,也称为剩余 方差.
2
15
2 1 aij i2 hi2 i2 j 1
m
显然,若hi2大,σ
16
2
3、公共因子F j 方差贡献的统计意义 因子载荷矩阵中各列元素的平方和
g a
2 j i 1
p
2 ij
gj2的统计意义与Xi的共同度h2i恰好相反, gj2表 示第j 个公因子Fj 对X的所有分量X1,…,Xp的总 影响,称为公共因子Fj对X的贡献(gj2是同一公 共因子Fj 对诸变量所提供的方差之总和),它 是衡量公共因子相对重要性的指标 .
7
§ 2 因子分析模型
一、数学模型
设 X i (i 1,2,, p ) p 个变量,如果表示为
X i i1F1 i 2 F2 im Fm i
(m p)
X 1 11 12 1m F1 1 X 22 2 m F2 2 2 21 X P p1 p 2 pm Fm P
19
u1 u 2
u1 1 0 u 2 up 0 p u p
1u1u 2u 2u2 mu mum m1u m1um1 pupu 1 p
例2 调查青年对婚姻家庭的态度,抽取了n个
引 言
什么是因子分析
克十项全能的得分进行研究(n=160),用X1-X10 表示十项全能的标准化得分数据(十项全能包括 :100米,铝球,跳高,跳远,400米,110米跨栏,铁 饼,撑杆,标枪,1500米),目的是分析哪些因素决 定了十项全能的成绩,以此来指导运动员的选拔 工作. 这些因素可归纳为如下几类:短跑速度,爆发 性臂力,腿力,耐力等.这也是一个因子分析的模 型,每一个因素就是一个公共因子. 6
基于因子分析的区域经济生态效率研究——以2007年省际间面板数据为例
2 0 中国经济、 0 7年 资源与环境 的省 际面板数据 进行 变量 计算比较 , 出中国区域 经济生 态效 率差异 的节能减 得 排、 基础经济、 水资源利 用三个特征 因子得 分及综合得分 , 并按 东、 西部三 大经济带 比较分析 , 中、 旨在 为社会 协 调可持 续发展提供 指导和借鉴。 关 键词 : 区域 ; 济 生 态效 率 ; 经 因子 分 析
T i p p r ae n tee o—e ce c f c n mi h oy,u e a trAn lssMeh d t n lz c n my e o re n n hs a e :b sdo h c i f in yo o o cte r s dF co ay i e to oa ayee o o ,rs uc sa de —
源 和环境 间的关 系 , 为 重 中之 重 。论文 引入 经 济 成
中 ,c 既是 生态 学 eo g eo一 cl y的词 根 , o 又是 经 济学 e —
cnm o o y的词 根 ,fcny有 “ 率 、 益 ” e ec i f 效 效 的涵 义 , 两 者组合则 意味着 应该兼 顾生 态 和经 济两 个方 面的效 率 , 进人 与 自然 和谐 发 展 , 促 促进 企 业 、 区域 或 者 国 家 的可持续 发 展 。】19 _ 9 2年 , 由世 界 可持 续 发 展 工
( c ol f cnmi Sh o o oo c E s& Ma ae e t C iaU i ri f esine ,Wu a 30 4, hn ) n gm n , hn nv s yo ocecs e t G h n4 0 7 C ia
Ab ta tTh O riae eeo me t fe o on sr c : eC Odn td d v lp n c n ty,rs uc sa d e vrn n sa mp r n U ic fc r n e e rh o e o re n n i me ti n i ot tSbe t ur trs ac . o a o e
因子分析方法与SPSS
因子1 因子2
高载荷指标
X2;面积(万平方公里) X4:人均水资源(立方米/人) X5:人均生物量(吨/人) X6:万人拥有的大学生数(人) X7:万人拥有的科学家、工程师数(人)
因子3
X1;人口(万人) X3:GDP(亿元)
因子命名 自然资源因子
人力资源因子
经济发展总量因子
Standardized Scoring Coefficients FACTOR1 FACTOR2 FACTOR3
求留下特征根大于1的公共因子; ——点击(Contiue)按钮确定,回到【 Factor Analysis】 对话框中。
(5)设置因子转轴 —— 在【 Factor Analysis】对话框中,点击
【Rotation】 按钮,出现 【 Factor Analysis:Rotation 】(因
子分析: 旋转)对话框。 —— 在Method 栏中选择 Varimax(方差最大法), —— 在Display栏中选择 Rotated solution(转轴
因子分析的目的之一,即要使因子结构的简单化, 希望以最少的共同因素,能对总变异量作最大的 解释,因而抽取得因子愈少愈好,但抽取因素的 累积解释的变异量愈大愈好。
在因子分析的共同因子抽取中,应最先抽取特征 值最大的共同因子,其次是次大者,最后抽取共 同因子的特征值最小,通常会接近0。
因子分析数学模型
——变异量分别为(63.58%)(15.467%)(10.32%)
Total Variance Explained
Initial Eigenvalues
Component Total % of Variance Cumulative %
1
6.358
会计实证的研究之因子分析法(31页)
、因子分析
^ 价L对象 含 理r
二因子分析 要义骤x
一因子分析 一因子分析 一
队
法法的主本要评原 的基列步 的主
t K
I
法示
因子分析(Factor analysis)是主成分分析的推广 和发 展,是将具有综合复杂关系的变量综合为数量 较少的几 个公因子,以再现原始变量与因子之间的 相互关系,同 时根据不同因子还可以対变量进行分 类,它属于多元分 析中处理降维的一种统计方法。
了应收账款周转率、存货周转率、每股经营现金 流量三 个指标,最终保留15个。见下页表1。
数据来源:2011年上市公司年度报吿。 提示:会计实证研究中,通常选择的财务指标 主要 有:偿债能力指标、运营能力指标、盈利能力 指标、成 长(发展)能力指标、现金能力等指标。 目前的实证研 究比较重视非财务指标的评价, 比如创新能力、社会责 任、管理能力等。 ___
矩阵描述为:X = AF^E
模型解释:毎一个变辅卩可以川公共冈子来帛释,a,y为第 /个变量
与菊个公共因子之间的相# 数,也称为因子载荷 它 反映了第/个变帯在術
个因广1:+的相对申:超性 的特殊因广,
是公共因子不能解释的ቤተ መጻሕፍቲ ባይዱ分。
.
子分析的基本原理
因子载荷矩阵中各赶元素的平方和:
/'厂j+t'A H-----F+a■二
L样本选择 以26家酿酒行业上司公司为样本。而目前涉 及酿
酒的上市公司己经有30多家了。
提示:样本可能有不同的选择标准。比如可 以选 择:白酒行业上市公司、以酿酒为主业的上 市公司、涉 及酿酒业务的上市公司等。标准不同, _本滅示一致。
一句话,应根据确定的目的选择样本单位。
因子分析的上机操作
4.389
3.137
1.411
例1:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析(12个地区调查表.sav) 菜单:Analyze-Data Reduction-Factor Variables :pop,School,employ,Services, house 其他使用默认值(主成分分析法Principal components,选取特征值>1,不旋转)
因子分析的上机操作
问题
题 项
从未 使用
很少 使用
有时 使用
经常 使用
总是 使用
1
2
3
4
5
A1
电脑
A2
录音磁带
A3
录像带
A4
网上资料
A5
校园网或因特网
电子邮件
A7
电子讨论网
A8
CAI课件
A9
视频会议
A10
视听会议
题目编号
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
01
1
5
5
1
1
1
1
1
1
1
02
2
5
比较有用的结果:两个主成分(因子)f1,f2及因子载荷矩阵(Component Matrix),根据该表可以写出每个原始变量(标准化值)的因子表达式: Pop0.581f1 + 0.806f2 School 0.767f1 - 0.545f2 employ 0.672f1 + 0.726f2 Services 0.932f1 - 0.104f2 house 0.791f1 - 0.558f2 每个原始变量都可以是5个因子的线性组合,提取两个因子f1和f2,可以概括原始变量所包含信息的93.4%。 f1和f2前的系数表示该因子对变量的影响程度,也称为变量在因子上的载荷。 但每个因子(主成分)的系数(载荷)没有很明显的差别,所以不好命名。因此为了对因子进行命名,可以进行旋转,使系数向0和1两极分化。
因子分析法--综合评价指标
《应用统计分析》----题目2题目2 数据data2是某医院3年中各月的数据,包括门诊人次、出院人数、病床利用率和周转次数、平均住院天数、治愈或好转率、病死率、诊断符合率、抢救成功率。
采用因子分析法探讨综合评价指标。
一、因子分析法因子分析是主成分分析的推广和发展,也是利用降维方法进行统计分析的一种多元统计方法。
它是一种将多变量化简的技术,其目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变量的相关性则降低。
每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。
因子分析有一个默认的前提条件就是各变量间必须有相关性,否则,各变量间没有共享信息,就不应当有公因子需要提取,自然也谈不上使用该方法。
具体在该条件的判断上,除了根据专业知识来估计外,还可以使用KMO统计量和Bartlett’s 球形检验加以判定。
二、操作步骤1.导入数据依次单击“文件—打开—数据文件”命令,打开如图1所示的对话框。
图1 导入数据2.因子分析(1)依次单击“分析—降维—因子分析”命令,如图2所示。
打开图3所示的“因子分析”主对话框。
图2 因子分析菜单(a )选入变量前(b )选入变量后图3 “因子分析”主对话框(2)在图3(a )所示的对话框中选中左边的变量,单击按钮,将其选入到左边的列表框中(如图3a 所示)。
(3)单击“描述”按钮,弹出“因子分析:描述统计”对话框,如图4所示,在“统计量”选项组中选取“原始分析结果”;在“相关矩阵”中选取“系数”和“KMO和Bartlett”。
设置完毕后,单击“继续”按钮,确认操作。
图4 “因子分析:描述”对话框图5 “因子分析:抽取”对话框(4)单击“抽取”按钮,得到如图5所示的“因子分析:抽取”对话框。
选择“方法”为“主成分”;在“分析”选项组选择“相关性矩阵”;在“输出”选项组选择“未旋转的因子解”和“碎石图”;在“提取”选项组中将“因子的固定数量:”设置为4;将“最大收敛性迭代次数:”设置为25.(5)单击“旋转”按钮,得到如图6所示的“因子分析:旋转”对话框。
(最新整理)1、因子分析法(FactorAnalysis)
Fp
cmU
m
简记为
2
1、因子分析法(FactorAnalysis)
Z A*F C U
(m1) (m p) ( p1) (mm) (m1) (对角阵)
(2)
且满足:(I) P≤m;
(II) COV(F.U)=0 (即 F 与 U 是不相关的); (III) E(F)=0 COV(F)= (1 1) pp I p 。
子空间的一个向量,则 aij 表示 zi 在坐标轴 Fj 上的投影.
因子分析的目的就是通过模型(1)或(2),以 F 代 Z,由于一般有 P<m,从而达
到简化变量维数的愿望。
二、使用软件和软件实现过程
采用 Eviews5。1、SPSS12。0、Stata5。1、SAS Release8.02 等计量软件均可 完成上述因子分子模型,建议采用 SPSS12。0 操作。 因子分析的基本步骤如下(事物可观测原始变量为 x1,x2,……,xp):
1、资料来源
4
1、因子分析法(FactorAnalysis)
消费结构是人们在生活中消费的消费资料和接受的服务种类及其比例关系,也就 是指各类消费支出在总消费支出中的比重.对居民消费支出按照人们实际支出的去 向分类可分为食品、衣着、家庭设备及服务、医疗保健、交通通讯、文教娱乐及服务、 居住、杂项商品及服务。分别记为 X1 , X2 ,…… , X8。根据重庆市统计年鉴 1998~ 2003 年各卷,得重庆市城镇居民消费结构变化如表 1 所示.由表 1 中资料可知,食 品、衣着所占比重从 1998 年开始是下降的.联合国 提出的恩格尔系数(食品在总消费支出中的比重) 判定生活发展阶段的一般标准:60 %以上为贫困, 50%~60%为温饱,40%~50%为小康,40%以下为富裕,可见重庆城 镇居民消费水平已从小康迈向了富裕。家庭设备所占比重也是下降的,这说明居民 对一般家庭设备的需求已经基本饱和,且由于总收入的增加,杂项支出所占比重也 逐年下降。另一方面,表 1 说明:医疗保健、交通通讯、文教娱乐和住房消费所占比 重在逐年上升。这是因为随着社会的发展,居民的保健意识增强,更关注自身的身心 健康,再加上医保制度的改革,所以医疗保健所占比重逐年上升;由于城镇居民家 庭拥有小汽车的比例增加,移动通讯的普遍使用,网络通讯进入家庭,因而交通和 通讯所占比重也是上升的;由于居民对自身进一步发展和子女教育的投入力度加大, 并且在物资享受已经得到满足的情况下更加注重精神享受,所以文教和娱乐方面的 支出增多;随着我国住房制度的改革,居民在居住上面的支出也出现了大幅增加.为 了进一步研究消费结构的变化情况,下面用因子分析法,对表 1 的数据进行统计分析.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第6章 因子分析本章提要在第一章中我们已经知道,在由p 个变量x 1, x 2, … , x p 组成的空间内,每个样品依其p 个变量的测定值为空间内的一个点(或矢量),所有样本点构成空间的一个点群(簇),第二章中正是根据各样本点之间的相似性进行样本的分类。
但在许多情况下,样本点的划分可能主要依赖于少数几个6.1 主成分分析主成分分析(principal component analysis)是将多个指标约简为少数指标的一种统计方法。
设有n 个样品,每个样品不则得p 个指标。
如何从p 个指标中找出很少几个综合性的指标,并能尽可能地反映原指标的变化性,称为主成分。
1. 主成分分析方法设1⨯p x 是p 维随机向量,μ=)(x E ,V x V =)(。
现求x 的线性函数p p x a x a x a x a y 122111111...+++='= (6.1)并使得新变量y 1的方差1111)()(Va a x a V y V '='= (6.2)尽可能地大。
11⨯p a 为待定系数向量。
由于对于任何常数c ,有 112111)(Va a c Vca ca x ca V '='='因此对a 1不加限制就没有意义了,所以通常要求111='a a 。
在实际问题中,用样本协方差阵S 估计随机变量的协方差阵V 。
不妨设各变量的样本均值0=x ,否则可用x x i -)(代替,即进行变量中心化,则有X X n S '-=11于是问题归结为在条件111='a a 下求11Sa a '的极值问题。
利用拉格朗日乘数法()1111111)(2)1(a I S a a Sa a a λλ-='-+'∂∂其中λ1为拉格朗日乘数,I 为单位矩阵。
令导数为零得 0)(11=-a I S λ (6.3) 这是求解系数a 1的线性方程组,其有非零解的充要条件是 01=-I S λ即λ1是矩阵S 的特征值,a 1为对应于λ1的特征向量(规一到长度为1)。
改写(6.3)式为 111a a S λ= 上式前乘a 1’得111111λλ='='a a Sa a由(6.2)可见λ1恰好是新的综合指标y 1的方差,为使其方差最大,只要取λ1为S 的最大特征值。
在确定了第一主成分后,再来确定第二主成分,它也是x 的线性函数p p x a x a x a x a y 222211222...+++='= (6.4)同样它必须满足标准化条件122='a a ,与第一主成分不相关,使方差贡献11Sa a '尽可能地大。
y 2与y 1不相关即有 0),c o v (),c o v (211212121='='=''=a a a S a x a x a y y λ因01≠λ,所以必须有021='a a 。
同样应用拉格朗日乘数法()12221222221)(2)1(a a I S a a a a a S a a μλμλ+-='+'-+'∂∂其中λ2 和μ 为拉格朗日乘数。
令导数为零,得0)(2122=+-a a I S μλ (6.5) 上式前乘'1a 并注意到条件021='a a 和111='a a ,有0221=+'μa S a (6.6) 前面(4.3)式前乘'2a 可得012='a S a (6.7)比较(6.6)和(6.7)得μ =0,于是(6.5)式成为 0)(22=-a I S λ (6.8)这与(4.3)式具有同样的形式,可知λ2 应为矩阵S 的次最大特征值,a 2为对应于λ2的特征向量。
类似地可得到第3主因子等。
总结前面的推导,我们得出结论:变量)...,,,(21p x x x x =的第j 个主成分y j 是x 的线性函数p j p j j j j x a x a x a x a y +++='=...2211, (6.9)其中a j 是对应于样本协方差矩阵S 的第j 个最大特征值λ j 的特征向量(规一到长度为1),主成分y j 的方差恰为j λ。
在理论上,p p S ⨯为正定阵,具有p 个正特征值,其和为矩阵S 的迹,亦即系统的总方差,S ptr ...11=+++λλλ 因此,第j 个主成分的方差贡献率为S i tr /λ,而前m 个主成分)(p m <的方差贡献率为S m tr /) (11)λλ+++一般只计算前m 个主成分,使其方差贡献率达到85%以上。
以后的成分的方差贡献已较小,可略去。
(6.9)式也可表示为 x A y '=⎪⎪⎪⎪⎭⎫ ⎝⎛''='⨯q p q a a A 1即各主成分的系数构成A ’的各行向量。
若我们取q=p ,也就是说把所有主成分都表示出来,或者更严格地说,是把所有主成分和非主成分都表示出来,因为事实上我们是把重要的成分才叫主成分的,则A ’为p×p 矩阵,又由于其为正交阵,A ’= A -1,可得 Ay x =各主成分的系数构成A 的各列向量。
主成分分析的Matlab 函数见文字框6.1。
2. 主成分的几何意义主成分分析的几何实质是一种坐标变换。
在原来p 维变量空间中,n 个样品构成该p 维空间的点群。
点群内各点的差异可能主要反映在沿某一个或某几个正交的几个方向上,p =2时如图 6.1。
第一主成分即是最能反映各点差异性的方向,以后渐次类推。
3. 主成分得分在确定了q (q <p )个主成分以后,每个样品,例如第i 个样品的p 个测试值)...,,,(21)('=ip i i i x x x x 代入的各主成分,例如第j 个主成分的值y ij ,称之为i 个样品在第j 个主因子上的得分(scores)。
由(6.9)得ip pj i j i j i j ij x a x a x a x a y +++='=...2211)(表示成矩阵的形式即有XA Y = (6.10)称m n Y ⨯为主成分得分矩阵。
m p A ⨯为主成分解矩阵,其中各列向量对应于各主成分的系数向量,亦即S 阵的前m 个特征向量。
),...,,(21m m p a a a A =⨯4. 相关矩阵的主成分分析前面我们是从观测的样本协方差阵S 出发进行主成分分析的。
变量之间的协方差与变量的量纲有关,如果改变某些变量的量纲就会得到不同的S ,因而得到不同的主因子解。
因此需要对变量进行归一化处理。
若我们采用第1章中介绍的变量标准化进行变量的归一化,即变换jjij ij s x x x -='则标准化变量的协方差矩阵即为相关矩阵R ,也就是说我们可以从初始变量的样本相关R 出发进行主成分分析。
如果主成分是从相关矩阵R 提取的,则其特征值之和将为p R =tr ,第j 个主成分的方差贡献为λi /p 。
5. 与主成分分析有关的Matlab 函数6.2 因子分析我们先从两个具体的例子出发。
例1 考虑人的5个生理指标:x 1:收缩压,x 2:舒张压,x 3:心跳间隔,x 4:呼吸间隔,x 5:舌下温度。
从生理学的知识知道,这5个指标是受植物神经支配的,植物神经分为交感神经和副交感神经,因此这5个指标的变化均主要起因于这两个公共的因子。
例2 研究某地区地表水的环境污染状况。
水样的多个指标,包括各种有机组分、无机元素含量、pH 、Eh 、溶解氧等进行了测试,但水体中这些污染指标主要由少量几个因素或称因子所造成,如区域内主要的某类工业对水体的污染、农业污染、生活污染和水所流经的地层中微量元素的溶出。
不失一般性,设对研究对象的n 个样品测试了p 个变量x 1, x 2, … , x p ,可认为这p 个变量共同起因于q 因子(即因素) f 1, f 2, … , f q 。
假定这q 个共因子(可理解为新的变量)对每个指标(变量)的影响或作用是线性的(我们总是讨论线性模型),则可表示为⎪⎪⎩⎪⎪⎨⎧++++=++++=++++=p p q pq p p p q q q q u b f a f a f a x u b f a f a f a x u b f a f a f a x 221122222212121112121111 (6.11)或u b f A x += (6.12)其中f 是1⨯q 的随机向量,u 是1⨯p 的随机向量,A 是q p ⨯的常数矩阵,且要求(1) p q ≤,事实上,一般共因子数总是要小于原始变量数(2) 各共因子相互独立(即正交)并规一化到方差为1,即有 q I f V =)((3) 单一因子相互独立(即正交)并规一化到方差为1,即有 q I u V =)((4) 单一因子与公因子之间也相互独立,即有 0),(cov =u f则称x 具有因子结构,(6.12)式称为x 的因子模型。
系数a jk (j =1, …, p , k =1, … , q )为变量x j 在公因子f k 上的因子载荷(factor load),系数矩阵A =(a jk )称为因子载荷矩阵。
u j (j =1, …, p )相当于各变量x j 不能被公因子表达的部分,称单一因子;相应地,b j (j =1, …, p )称单一因子载荷。
b 为对角矩阵,其对角元素为b j (j =1, …, p )。
不妨设x 为标准化变量,则x 的相关系数矩阵R 即协方差阵。
根据因子分析基本定理,可得b b A A b u V b A f V A u b f A V x V R '+'='+'=+==)()()()( (6.13) 由(6.1)式知j j qk k jk j j q jq j j j u b f a u b f a f a f a x +=++++=∑=12211(6.14)所以1)(212=+=∑=jjk b a x V qk j记∑==qk j jka h 122, (6.15) 则p j b h j j ...,,2,1,122==+ (6.16)2j h (因子载荷阵A 的行元素平方和)反映了公因子对x j 的影响,称公因子对x j 的“贡献”,也称公因子方差;2j b 则称特殊因子方差。
当2j h 接近1时,2j b 接近于0,x j 的方差基本上已为q个公因子所穷尽, x j 能很好地被q 个公因子的线性组合所表征;当2j h 接近0时,表明公因子对x j 的影响不大,x j 主要是由特殊因子来表达。
另一方面,对于特定的公因子f k ,其对各变量的x j 的影响由A 的列元素平方和来描述,记∑==pj kjka g 122 (6.17) 称为公因子f k 对x 的贡献。