(整理)因子分析与聚类分析案例.
聚类和因子分析
一种是输出树形图(Dendrogram)
树形图以树的形式展现聚类分析的每一次合并过程, SPSS首先将各类之间的距离换到 0~25之间,然后再近似 地表示在图上。树形图可以粗略地表现聚类的过程。选中 Dendrogram项,即可输出树形图。
一种是输出冰柱图(Icicle)
冰柱图通过表格中的“X”符号显示,其样子很像冬天房 屋下的冰柱。SPSS默认输出聚类全过程的冰柱图(ALL clusters)。 选择Specified range of clusters项,并输入从第 几类开始显示 (Start:),到第几类结束显示(Stop),中间 几个几类(By:),则可以指定显示聚类中某一阶段的冰柱 图。如果选择None则不输出冰柱图。
在Measure框中选择计算样本距离的方法,选项如下: interval适合于连续性变量,系统提供8种方法供用户 选择 1 Euclidean distance,欧氏距离。 2 Squared Euclidean distance(系统默认方式),欧氏距 离平方。 3 Cosine:变量矢量的余弦,这是模型相似性的度量。 4 Pearson correlation:相关系数距离,适用于R型聚类。 5 Chebychev,Chebychev距离。 6 Block:City-Block或Manhattan距离。 7 Minkowski,Minkowski距离。 8 Customized, 362.1 1,156.1 1,440.0
绢云绿泥片岩
褐铁矿化片岩 绢云绿泥片岩 绢云绿泥片岩 绢云绿泥片岩
17
18 19 20 21
0.31
0.45 0.56 0.95 0.27
18.7
92.7 102.4 100.4 67.0
因子分析、聚类分析
主轴和主成分
正如二维椭圆有两个主轴, 正如二维椭圆有两个主轴 , 三维椭球 有三个主轴一样, 有几个变量, 有三个主轴一样 , 有几个变量 , 就有 几个主轴。 几个主轴。 和二维情况类似, 和二维情况类似 , 高维椭球的主轴也 是互相垂直的。 是互相垂直的。 这些互相正交的新变量是原先变量的 线 性 组 合 , 叫 做 主 成 分 (principal component)。 。
hi =
∑a
j =1
ij
成绩数据( 成绩数据(student.txt) )
100个学生的数学、物理、化学、语文、历史、 个学生的数学、物理、化学、语文、历史、 个学生的数学 英语的成绩如下表(部分) 英语的成绩如下表(部分)。
SPSS数据形式 数据形式
目前的问题是, 目前的问题是,能否把这个数据的 6 个变量用一两个综合变量来表示 呢? 这一两个综合变量包含有多少原来 的信息呢? 的信息呢? 能否利用找到的综合变量来对学生 排序或据此进行其他分析呢? 排序或据此进行其他分析呢?
空间的点
例中数据点是六维的; 例中数据点是六维的;即每个观测 值是6维空间中的一个点 维空间中的一个点。 值是 维空间中的一个点 。 希望把 6维空间用低维空间表示。 维空间用低维空间表示。 维空间用低维空间表示 先假定只有二维,即只有两个变量, 先假定只有二维,即只有两个变量, 由横坐标和纵坐标所代表; 由横坐标和纵坐标所代表; 每个观测值都有相应于这两个坐标 轴的两个坐标值; 轴的两个坐标值;
1 2 3
p
x2 = a21 f1 + a22 f 2 + ......a2 k f k + µ2 ..................................................... x p = a p1 f1 + a p 2 f 2 + ......a pk f k + µ p 用矩阵表示为X = AF + ε
因子分析教育学案例(3篇)
第1篇摘要:因子分析作为一种统计方法,在教育学研究中具有广泛的应用。
本文通过一个具体案例,展示了因子分析在教育学研究中的应用过程,包括研究背景、研究方法、数据分析、结果解释和结论等环节。
通过对某教育项目效果的评估,揭示了教育干预的关键因素,为教育实践提供了科学依据。
关键词:因子分析;教育学;教育项目;效果评估;关键因素一、研究背景随着教育改革的不断深入,教育项目层出不穷,如何评估教育项目的效果成为教育研究者关注的焦点。
传统的评估方法往往依赖于主观判断,难以全面、客观地反映教育项目的实际效果。
因子分析作为一种多变量统计分析方法,能够从众多变量中提取出少数几个公共因子,揭示变量之间的内在联系,为教育项目的效果评估提供科学依据。
二、研究方法本研究以某教育项目为例,运用因子分析的方法对该项目的效果进行评估。
研究步骤如下:1. 文献回顾与变量选择:通过查阅相关文献,确定影响教育项目效果的关键因素,如课程设置、教学方法、师资力量、学生参与度等。
2. 数据收集:采用问卷调查的方式,收集教育项目实施前后学生、教师和家长的反馈数据。
3. 数据整理:对收集到的数据进行整理和清洗,确保数据的准确性和可靠性。
4. 因子分析:运用统计软件(如SPSS)进行因子分析,提取影响教育项目效果的关键因子。
5. 结果解释:根据因子分析结果,解释关键因子的含义,分析其对教育项目效果的影响。
三、数据分析1. 样本描述:本研究共收集有效问卷300份,其中学生问卷200份,教师问卷100份。
2. 因子分析结果:(1)提取因子:通过主成分分析,提取了3个公共因子,累计方差贡献率为63.8%。
(2)因子命名:根据因子载荷,将3个公共因子命名为“课程与教学”、“师资力量”和“学生参与度”。
(3)因子解释:- “课程与教学”因子:包括课程设置、教学方法、教学资源等变量,表明课程与教学是影响教育项目效果的重要因素。
- “师资力量”因子:包括教师的专业素养、教学能力、敬业精神等变量,表明师资力量对教育项目效果具有显著影响。
实验 聚类分析与因子分析
实验聚类分析一、实验目的学习利用SPSS进行聚类分析。
二、实验内容及实验步骤(一)系统聚类法(Hierarchical Cluster过程)实验内容:29名儿童的血红蛋白(g/100ml)与微量元素(μg/100ml)测定结果如下表。
由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R型指标聚类)筛选代表性指标,以便更经济快捷地评价儿童的营养状态。
编号N0. 钙X1镁X2铁X3锰X4铜X5血红蛋白X61 2 3 4 5 6 7 8 910111213141516171819202122232425262728 54.8972.4953.8164.7458.8043.6754.8986.1260.3554.0461.2360.1769.6972.2855.1370.0863.0548.7552.2852.2149.7161.0253.6850.2265.3456.3966.1273.8930.8642.6152.8639.1837.6726.1830.8643.7938.2034.2337.3533.6740.0140.1233.0236.8135.0730.5327.1436.1825.4329.2728.7929.1729.9929.2931.9332.94448.70467.30425.61469.80456.55395.78448.70440.13394.40405.60446.00383.20416.70430.80445.80409.80384.10342.90326.29388.54331.10258.94292.80292.60312.80283.00344.20312.500.0120.0080.0040.0050.0120.0010.0120.0170.0010.0080.0220.0010.0120.0000.0120.0120.0000.0180.0040.0240.0120.0160.0480.0060.0060.0160.0000.0641.0101.6401.2201.2201.0100.5941.0101.7701.1401.3001.3800.9141.3501.2000.9181.1900.8530.9240.8171.0200.8971.1901.3201.0401.0301.3500.6891.15013.5013.0013.7514.0014.2512.7512.5012.2512.0011.7511.5011.2511.0010.7510.5010.2510.009.759.509.259.008.758.508.258.007.807.507.2529 47.31 28.55 294.70 0.005 0.838 7.00实验步骤:1.建立数据文件。
【免费下载】因子分析与聚类分析在消费者生活形态研究中的应用
对全部高中资料试卷电气设备,在安装过程中以及安装结束后进行高中资料试卷调整试验;通电检查所有设备高中资料电试力卷保相护互装作置用调与试相技互术关,系电,力根通保据过护生管高产线中工敷资艺设料高技试中术卷资,配料不置试仅技卷可术要以是求解指,决机对吊组电顶在气层进设配行备置继进不电行规保空范护载高与中带资负料荷试下卷高问总中题体资,配料而置试且时卷可,调保需控障要试各在验类最;管大对路限设习度备题内进到来行位确调。保整在机使管组其路高在敷中正设资常过料工程试况中卷下,安与要全过加,度强并工看且作护尽下关可都于能可管地以路缩正高小常中故工资障作料高;试中对卷资于连料继接试电管卷保口破护处坏进理范行高围整中,核资或对料者定试对值卷某,弯些审扁异核度常与固高校定中对盒资图位料纸置试,.卷保编工护写况层复进防杂行腐设自跨备动接与处地装理线置,弯高尤曲中其半资要径料避标试免高卷错等调误,试高要方中求案资技,料术编试交写5、卷底重电保。要气护管设设装线备备置敷4高、调动设中电试作技资气高,术料课中并3中试、件资且包卷管中料拒含试路调试绝线验敷试卷动槽方设技作、案技术,管以术来架及避等系免多统不项启必方动要式方高,案中为;资解对料决整试高套卷中启突语动然文过停电程机气中。课高因件中此中资,管料电壁试力薄卷高、电中接气资口设料不备试严进卷等行保问调护题试装,工置合作调理并试利且技用进术管行,线过要敷关求设运电技行力术高保。中护线资装缆料置敷试做设卷到原技准则术确:指灵在导活分。。线对对盒于于处调差,试动当过保不程护同中装电高置压中高回资中路料资交试料叉卷试时技卷,术调应问试采题技用,术金作是属为指隔调发板试电进人机行员一隔,变开需压处要器理在组;事在同前发一掌生线握内槽图部内 纸故,资障强料时电、,回设需路备要须制进同造行时厂外切家部断出电习具源题高高电中中源资资,料料线试试缆卷卷敷试切设验除完报从毕告而,与采要相用进关高行技中检术资查资料和料试检,卷测并主处且要理了保。解护现装场置设。备高中资料试卷布置情况与有关高中资料试卷电气系统接线等情况,然后根据规范与规程规定,制定设备调试高中资料试卷方案。
SPSS管理统计 课程设计 因子分析和聚类分析
一:实验名:实验四二:实验要求:练习上课讲过(第10-12章)的例子。
(无需写实验报告)三:实验步骤:1、使用“网购数据”文件进行以下分析。
1.1 产生因子:商品感知风险、网页展示质量、网络安全、卖家信誉、服务质量、便捷性、所属平台质量、以往经验、网络购物意向。
实验步骤:1)读取数据“网购数据”,依次点击analyze--data reduction—factor,弹出小窗口,将“感知风险”以及以下的四列添加到Test Variable(s)中,如图1.11所示2)再点击score按钮,选择“save as variables”选项,如图1.12所示,点击continue 返回。
3)此时data view界面就会出现如图1.13所示列,用相同方法将其余的各组因子归类,如图1.14所示,使其增加了9列fac1_1..9 。
图1.11 因子分析主窗口图1.12 因子分析子窗口图1.13新增因子实验结果:图 1.14 ,如图所示,产生“商品感知风险、网页展示质量、网络安全、卖家信誉、服务质量、便捷性、所属平台质量、以往经验、网络购物意向”9项因子图1.141.2 分别对网络购物意向与商品感知风险、网页展示质量、网络安全、卖家信誉、服务质量、便捷性、所属平台质量、以往经验的相关分析。
实验步骤:1)依次点击analyze--data reduction—factor,弹出小窗口,将“fac_1”以及以下的9列因子添加到Test Variable(s)中,如图1.21所示2)点击descriptives按钮,弹出小窗口,选上“KMO and…sphericity ”选项,(即KMO 测度和巴特利特球体检验)如图1.22,点击continue返回。
3)点击extraction按钮,探出小窗口,在display框中选上scree plot(显示碎石图)如图1.23。
点击continue返回。
4)点击score按钮,选择“save as variables”选项,下面的method小框被激活,系统默认为regression选项(回归方法),如图1.24所示,点击continue返回。
因子分析和聚类分析实例解译
地球化学数据因子分析和聚类分析实例解译编写人:刘红杰QQ:498236930内蒙古第三地质矿产勘查开发院第*节元素组合(元素的共生组合特征)及分类特征元素组合是元素亲合性在地质体内的具体表现,而元素亲合性又与地质环境有关[16]。
确定成矿及伴生元素的组合特征是确定成矿最佳地球化学标志元素组合的前提,为了研究本区元素的共生组合规律和区域成矿的特点,我们对全区的样品进行了相关分析,聚类分析和因子分析。
具体结果如下:一、相关分析作为地质作用的微观结果,地球化学信息必然与地质信息相关连。
相关分析是一种简单而直接的研究元素亲合性的方法。
本次研究对所测13个元素进行了相关分析,用新疆金维软件计算了各元素之间的相关系数,计算之前首先对原始数据进行标准化,计算结果见表1。
表1 阿尔山市三十公里等三幅1:5万化探相关系数矩阵Pb Mn Cu Sn Mo Ag Zn Co W As Bi Hg AuPb 1 0.2786 0.0813 0.1417 0.191 0.358 0.4656 -0.0455 0.1938 0.047 0.1198 0.0616 0.0054 Mn 1 0.1315 0.1385 0.0768 0.195 0.4076 0.2994 0.098 0.0991 0.0339 0.0751 0.0012 Cu 1 -0.0189 0.0198 0.2198 0.2738 0.4897 -0.0296 0.0644 0.0413 0.0192 0.1754 Sn 1 0.2043 0.133 0.1401 -0.0795 0.3298 0.046 0.1488 0.0452 -0.0166 Mo 1 0.1883 0.067 -0.0397 0.2436 0.201 0.2649 0.1648 0.0788 Ag 1 0.2594 -0.0032 0.1693 0.1534 0.2909 0.2333 0.1169 Zn 1 0.2384 0.1364 0.0191 0.0784 0.0269 0.007 Co 1 -0.1361 0.0544 -0.0401 -0.0383 -0.0113 W 1 0.1694 0.1807 0.0779 0.0145 As 1 0.0331 0.0308 0.0638 Bi 1 0.7183 -0.0082 Hg 1 0.0275 Au 1由表1可知:Pb与Zn、Ag、Mn呈正强相关;W与Mo、Sn呈明显正相关. Bi与Mo、Ag 元素之间呈正相关, Hg、Bi元素呈显著正相关。
基于因子分析和聚类分析的城市竞争力综合评价研究——以广西为例
3.1 聚类分析方法的原理与步骤聚类分析是用于解决分类问题的多元统计分析方法,是根据事物本身的特性对被研究对象进行分类,使同一类中个体有较的相似性,不同类中的个体有较大的差异。
本文采用系统聚类分析方法,它是聚类分析中应用最为广泛的一种方法,具体步骤为:(1)选取每个城市的竞争力综合得分进行分类;(2)采用欧氏距离测度14个城市之间的样本距离;(3)选用组平法计算类间的距离,并对样本进行归类。
3.2 广西城市综合竞争力的聚类分析在因子分析的基础上,本文根据广西14个地级市的综合得分,采用系统聚类法对广西城市综合竞争力进行分析,根据系统聚类树状图及表3各地市因子综合得分,将广西城市综合竞争力水平从高到低划分为四个梯度类型区(表4),并按照四个梯度类型对每一个类型区各因子得分和综合得分的平均值进行计算。
类别城市均值F F F F F P第Ⅰ类型区南宁 3.348 -0.037 0.703 -0.080 1.153 1.781第Ⅱ类型区柳州、桂林0.173 0.669 1.647 1.451 0.256 0.564第Ⅲ类型区梧州、北海玉林-0.250 0.939 -0.197 0.932 0.732 -0.012第Ⅳ类型区贵港、钦州、百色、河池、来宾、贺州、防城港、崇左-0.368 -0.515 -0.275 -0.003 -0.479 -0.3513.3 广西城市综合竞争力空间格局特征分析从表5中可以看出广西城市综合竞争力水平空间差异明显,桂南的南宁城市综合竞争力水平最强,桂东北的桂林、柳州城市综合竞争力水平仅次于南宁,属于城市综合竞争力较强的区域中心城市,桂东的梧州和玉林、桂南的北海城市综合竞争力处于居中的地位,桂西部的城市综合竞争力水平普遍偏低,各个类型区域的特征如下:3.3.1 第Ⅰ类型区——城市综合竞争力较强的全区中心城市该类型区仅包括位于桂南的南宁一个城市。
南宁的城市综合竞争力位居全区首位,从表5可以知道,其F1的值为3.348,F5的值为1.153,远高于其它类型区的平均值,综合得分为1.781,排在第一位,但F2、F4的得分落后于Ⅱ、Ⅲ类型区的均值。
聚类分析和因子分析
2020/2/5
七、计算变量 【转换】-----【计算变量】
例题: 现有某班的5门功课期末考试成绩,为了作进一
步的分析,需要先对数据进行整理,要求计算出5门 功课的总分、平均分、加权总分(语文、数学的权 重为1.2,物理、化学的权重为1.0,生物的权重为 0.7)。
2
限
5% 修整均值
78.00
中值
77.00
方差
81.857
标准差
9.047
极小值
64
极大值
92
范围
28
2020/2四偏/分度5 位距
17 .310
峰度
-1.082
标准误 3.151
.580 1.121 2.336
.580 1.121
第四节 两变量的相关分析
• 主要功能
• 1.相关分析的基本概念
76
2
李二
女
1.61
87
3
王三
女
1.53
80
4
赵四
男
1.68
89
5
孙五
男
1.69
62
6
周六
女
1.48
54
7
郑七
男
1.80
93
8
孟八
男
1.65
74
2020/2/5
(二)直接读入Excel数据文件
2020/2/5
1、只读入数据,其他属性不会读入 2、从SPSS16.0开始读入 EXCEL2007数据文件 3、读入文件时先关闭EXCEL文件 4、检查EXCEL文件格式,确保格 式正确,并删除和数据无关的部分 及空行和空列。
2020/2/5
spss因子分析、聚类分析(西甲球员综合能力分析)
吉林财经大学2011-2012学年第一学期多元统计分析期末论文学院:工商管理学院专业:人力资源管理年级:2009级学号:姓名:西甲球员的综合能力统计分析摘要:足球运动是一项古老的体育活动,是目前全球体育界最具影响力的单项体育运动。
球员是足球运动中不可缺少的部分,球技是影响球员乃至球队发展的重要因素。
本文通过网上搜集西甲联赛部分球员的技术数据统计为依据,运用spss软件对不同球员的球技进行因子分析和聚类分析。
关键词:足球、球员、球技、因子分析、聚类分析引言:足球是世界最受欢迎的一项运动,故有世界第一大运动的美称!当今足球运动已成为人们生活中不可缺少的组成部分,不论在任何地区,足球都成为了一项不可或缺的运动。
当今世界各地都有足球联赛,各地也都有不同形式的球队及比赛,据不完全统计,现在世界上经常参加比赛的球队约80万支,登记注册的运动员约4000万人,其中职业运动员约10万人。
当然,球员的水平也不尽相同,每个人心中都有各自所喜爱的球队及球员。
当今世界两大豪门为巴塞罗那和皇家马德里,他们深受世界大多数人们的喜爱,所以本文选择了最受人们欢迎的西甲球员进行数据统计分析。
一、指标选取进行球员技术的数据统计分析,必须选取合适的指标,做到全面准确地反映每一个球员的技术,对不同的球员加以区分,综合的反映一个球员的技术水平,因此从出场、出场时间、进球、助攻、射门等方面选取了能够反映个人球技水平的10项指标,分别为:X1——出场(次)X2——出场时间(分)X3——进球(个)X4——助攻(个)X5——射门(次)X6——射正(次)X7——犯规(次)X8——越位(次)X9——黄牌(张)X10——角球(个)原始数据的收集与整理:二、因子分析因子分析是一种数据简化的技术,它是将具有相关性的多个原始变量通过空间线性变换为较少的几个抽象的综合指标的一种方法。
得到新的综合指标称为公因子,这些主成分不仅保留了原始指标的绝大多数信息,并且彼此不相关。
数学建模聚类分析因子分析实例
多元统计分析中的降维方法在四川省社会福利中的应用由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。
在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。
在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。
因此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。
多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。
多元统计分析法主要包括降维、分类、回归及其他统计思想。
一.多元统计分析方法中降维的方法1.概述多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。
在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。
同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。
根据所测量的特征和分类规则将一些“类似的”对象或变量分组。
多元统计分析也可以研究变量间依赖性。
即对变量间关系的本质进行研究。
是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。
最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。
在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。
主成分分析、因子分析及聚类分析在实例数据分析中的应用 -青年技术交流-地质所-朱斌
所属部门:地 质 所
参赛人员:朱斌
时
间:2014.07.23
主成分分析、因子分析及聚类分 析在实例数据分析中的应用
基本概念
主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变 量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要 尽可能多地保留原始变量的信息,且彼此不相关。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因 子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
结论
结合以上分析可知,在实际地质数据处理及解释时,
可以根据主成分分析、因子分析及聚类分析的特点及 优缺点,综合加以利用,如因子分析中提取方法采用 主成分分析法,然后根据因子分析结果得出主因子元 素组合,对比聚类分析元素组合,结合地质特征及地 质描述,选取最优最合适的处理结果:本例中采用因 子分析的9个主因子元素组合及解释。
注意事项:
(1)、三种方法都是在不同程度上起到了降维的作用,减少处
理数据的难度,不同的是因子分析只能解释部分变异,主成分 分析能解释所有变异。聚类分析把原来的对象集合分成相似的 组或簇,来获得某种内在的数据规律,其中并没于产生新变量 ,但是主成分分析和因子分析都产生了新变量。 (2)、主成分分析中为了消除量纲和数量级,通常需要将原始 数据进行标准化,将其转化为均值为0方差为1 的无量纲数据。 因子分析在这方面要求不是太高,不过在实际应用的过程中, 为了尽量避免量纲或数量级的影响,建议在使用因子分析前还 是要进行数据标准化。 聚类分析中如果参与聚类的变量的量纲 不同会导致错误的聚类结果。因此在聚类过程进行之前必须对 变量值进行标准化,即消除量中表2因子分析结果
基于因子分析和聚类分析角度的财务状况分析——以A股生物制品行业上市公司为例
经济研究基于因子分析和聚类分析角度的财务状况分析——以A股生物制品行业上市公司为例庞 晴,张子宁(河北经贸大学会计学院,河北 石家庄 050090)摘 要:以A股生物制品行业的29家上市公司作为研究对象,选取11个财务指标进行综合财务分析。
首先利用因子分析法提取三个公共因子,分别为偿债能力因子、营运及盈利能力因子和成长能力因子,然后以各个公司在三个公共因子上的得分为基础,通过聚类分析,将29家上市公司分为三类,比较分析不同类别公司的财务状况,并提出解决对策。
关键词:因子分析;聚类分析;财务研究0 引言因子分析法是一种多元统计方法,根据相关性大小把变量分组,使得不同的组之间形成新的变量,这样,在尽量减少信息丢失的前提下,用较少的变量来替代原来较多的变量,达到“降维”的目的,然后再根据各变量方差贡献率确定权重,进而计算出综合得分。
而聚类分析可以根据研究对象的不同特点将其分成不同类别,同一类中的对象有很大的相似性,不同类的对象有很大的相异性,进而可以直观地描述不同聚类中公司的特征。
本文主要采用因子分析法,运用SPSS Clementine数据分析软件将选用的财务指标进行预处理,并建立因子分析模型,提取公共因子。
然后以各个研究对象在公共因子上的得分为基础进行聚类分析,并计算出每类的平均综合得分,以此对A股上市公司中生物制品行业的29家公司的2019年财务状况作出综合评价。
1 样本选取及数据来源本文选取了A股上市公司中生物制品行业的29家公司作为研究对象,共选取11个反映企业财务综合状况的财务指标进行分析,分别为X1流动比率、X2速动比率、X3现金比率、X4流动资产周转率、X5总资产周转率、X6总资产报酬率、X7销售净利率、X8净资产收益率、X9营业收入增长率、X10营业利润增长率、X11净利润增长率。
所用数据来源于万德数据库。
2 基于因子分析的实证研究为检验收集的数据是否适合进行因子分析,对其进行KMO 和Bartlett检验。
SPSS因子、聚类案例分析报告.doc
SPSS因子、聚类案例分析报告.doc《多元统计分析SPSS》实验报告实验课程:基于 SPSS的数据分析实验地点:现代商贸实训中心实验室名称:经济统计实验室学院:xxx 学院年级专业班: xxx 班学生姓名:xxx 学号: 015完成时间:2016 年 x 月 x 日开课时间:2016 至 2017 学年第 1 学期成绩教师签名批阅日期实验项目:中国上市银行竞争力分析(一)实验目的本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其2012年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了8 个重要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进行了分析评价。
最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比较,提出了提升我国上市商业银行竞争力的一些建议。
(二)实验资料通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况的因素与上述指标是否有关。
具体数据如下所示:十家同类型上市商业银行2012 年指标盈利能力安全能力发展能力资产利润资产负债资本充足每股收益贷款增长存款增长总资产增率不良贷款率率率增长率率率长率平安银行% % % % % % % % 浦发银行% % % % % % % % 建设银行% % % % % % % % 中国银行% % % % % % % % 农业银行% % % % % % % % 工商银行% % % % % % % 10% 交通银行% % % % % % % % 招商银行% % % % % % % % 中信银行% % % % % % % % 民生银行% % % % % % % %(三)实验步骤1、选择菜单2、选择参与因子分析的变量到( 变量 V) 框中3、选择因子分析的样本4、在所示窗口中点击(描述D)按钮,指定输出结果,输出基本统计量、图形等5、在所示窗口中点击(抽取E)按钮指定提取因子的方法为:主成分分析法6、在所示的窗口中点击(旋转T)按钮选择因子旋转方法7、在所示窗口中点击(得分S)按钮选择计算因子得分的方法8、在所示窗口中点击(选项)按钮(四)实验结果及分析分析结果如下表所示。
SPSS案例-因子分析结果聚类
对因子分析结果进行聚类分析
一、指标选取
由因子分析结果可得,我国城市设施可以由三个方面来综合体现。
因子 1主要解释的是城市用水普及率,每万人拥有公共交通车辆,命名为保障因子;而因子 2 主要解释的是人均城市道路面积,人均公园绿地面积3个指标,命名为环境因子,而因子 3主要解释的是每万人拥有公共厕所,命名为卫生因子。
以全国31个城市为研究对象,以这三个因子为指标进行聚类分析。
二、对数据进行系统聚类分析
三、快速聚类结果
四、得出结论
根据系统聚类法的输出结果,可以看出,第一类城市包括北京与上海,第三类包括黑龙江与内蒙古,其他城市为第二类。
显然,第一类城市设施较好,第二类次之,第三类最差。
因子分析与聚类分析案例
1 因子分析与聚类分析理论简介1.1 因子分析法因子分析法是一种通过分析多个变量间协方差矩阵(或相关系数矩阵)的内部依赖关系,找出能代表所有变量的少数几个随机变量的计量分析方法。
其中,找出的几个随机变量是不可测量的,将其称为公因子。
每个公因子之间是互不相关的,所有变量都可以由这几个公因子的线性表示。
因子分析通过减少变量的数目,用少数因子代替所有变量去分析整个经济问题,大大简化了现实分析过程。
假设有N 个样本,P 个指标,()TP X X X X ,,,21⋅⋅⋅=是随机向量,需要寻找的公因子是()Tm F F F F ,,,21⋅⋅⋅=,则将模型112121111ε++⋅⋅⋅++=m m F a F a F a X 222221212ε++⋅⋅⋅++=m m F a F a F a X...p m pm p p p F a F a F a X ε++⋅⋅⋅++=2211称为因子模型。
将矩阵()ij a A =称为因子载荷矩阵,将ij a 称为因子载荷(Loading ),因子载荷的实质是公因子Fi 与变量Xj 的相关系数。
其中,ε为特殊因子,代表公因子以外的影响因素,在实际分析时一般忽略不计。
对于需要求出的的公因子,其实际含义取决于该公因子在哪些变量上有较大的载荷。
但一般情况下,初始因子模型的因子载荷矩阵都比较复杂,不利于因子的解释。
因此可进一步通过因子旋转,给出对各公因子更加合理明显的解释。
公因子求出后,可以进一步用回归估计等方法求出各个公因子得分的数学模型,将其表示成变量的线性形式,从而计算求出得分。
模型如下:n in i i i X b X b X b F +⋅⋅⋅++=2211 (i = 1,2,...,m )1.2 层次聚类法聚类分析的实质是按照距离的远近将数据分为若干个类别,以使得类别内数据的“差异”尽可能小,类别间的“差异”尽可能大。
“差异”的描述是通过距离或相似性的方法来描述。
在统计学中最常用的是距离表达式欧几里得距离,对于两条数据),,(111z y x 和),,(222z y x ,欧几里得距离的计算公式是:221221221)()()()2,1(z z y y x x Euclid -+-+-=本文应用的是聚类分析法中的层次分析法,选用的是欧几里得距离的计算方法。
SPSS因子、聚类案例分析报告.doc
喀什大学实验报告《多元统计分析SPSS》实验报告实验课程:基于SPSS的数据分析实验地点:现代商贸实训中心实验室名称:经济统计实验室学院: xxx学院年级专业班: xxx班学生姓名: xxx 学号: XXXX1808015 完成时间: XXXX年x月x日开课时间: XXXX 至 2017 学年第 1 学期实验项目:中国上市银行竞争力分析(一)实验目的本实验目的围绕上市商业银行竞争力这一主线,遵循一般理论、具体分析到对策建议的研究思路,以我国国内上市的十家商业银行为研究对象,采用其XXXX 年度财务报告的数据,从盈利能力、安全能力和发展能力三方面共选取了8个重要指标,试图通过这些指标量化影响竞争力的因素,构建我国上市商业银行的竞争力评价指标体系,并运用因子分析方法,对我国上市商业银行的竞争力状况进行了分析评价。
最后针对分析的结果,通过对我国上市银行竞争力进行优劣势比较,提出了提升我国上市商业银行竞争力的一些建议。
(二)实验资料通过对资产利润率、不良贷款率、资产负债率、资本充足率、每股收益增长率、贷款增长率、存款增长率、总资产增长率等指标的选择分析不同指标在进行因子分析时所考虑的因素是否存在差异,影响我国上市商业银行的竞争力状况的因素与上述指标是否有关。
具体数据如下所示:十家同类型上市商业银行XXXX年指标(三)实验步骤1、选择菜单2、选择参与因子分析的变量到(变量V)框中3、选择因子分析的样本4、在所示窗口中点击(描述D)按钮,指定输出结果,输出基本统计量、图形等5、在所示窗口中点击(抽取E)按钮指定提取因子的方法为:主成分分析法6、在所示的窗口中点击(旋转T)按钮选择因子旋转方法7、在所示窗口中点击(得分S)按钮选择计算因子得分的方法8、在所示窗口中点击(选项)按钮(四)实验结果及分析分析结果如下表所示。
相关性矩阵每股收益增长率贷款增长率存款增长率总资产增长率相关性资产利润率.383 -.144 -.404 -.359 不良贷款率-.207 -.025 -.009 -.086资产负债率.563 -.166 .105 .494资本充足率-.479 .357 .044 -.392每股收益增长率 1.000 -.366 -.345 .159贷款增长率-.366 1.000 .922 .551存款增长率-.345 .922 1.000 .738总资产增长率.159 .551 .738 1.000显著性(单尾)资产利润率.137 .346 .124 .154 不良贷款率.283 .472 .490 .407资产负债率.045 .323 .386 .073资本充足率.081 .155 .452 .131每股收益增长率.149 .164 .330贷款增长率.149 .000 .049存款增长率.164 .000 .007总资产增长率.330 .049 .007 通过观察原始变量的相关系数矩阵,可以看到,矩阵中存在许多比较高的相关系数,并且大多数变量通过了原假设为相应变量之间的相关系数为0的t假设。
SAS实验_因子分析_聚类分析
实验过程: 1.搜集数据
通过搜索相关数据库,得到 2008 年我国各地区农村人均生活消费支出的相关数据,共包括 我国 31 个省市自治区,设计 8 个方面的人均消费支出。
2.数据准备和预处理
首先建立数据集,我将数据存在 D:\mydata.txt 中。此处编写 SAS 程序来实现 INPUT 数据。
Step2:加入 cluster 节点,联结,设置相关属性。
Step3:运行 运行结果如下,这个结果本来我看起来十分诡异,31 个地区,分了 31 类,看起来没有起到 任何的聚类效果。 首先,Factor1 和 Factor2 的贡献值都为 0:
其次,画出来的散点图和最终的 stat 结果也如此显示:
注:右上角的制表时间是由于时间跳过程序修改造成的,后同。
3.描述性统计分析
①单变量分析: 首先要对数据的基本情况有一个初步的了解, 因此先进行单变量分析。 再次我们利用 means 过程计算一些描述性统计量,编写程序如下:
解释:proc 语句指定运行 means 过程,并指出分析的数据集为 expend,maxdec=2 表示计算 的描述统计量保留两位小数, 然后指定要计算的统计量为: 均值、 标准差、 最大值、 最小值、 极差、变异系数、偏度。之后指定要分析的变为量 x, x1-x8。运行结果如下:
解决思路:
为了研究上述问题, 我们应当以近年的各地区农村人均生活消费支出相关数据为数据源, 通 过描述性统计分析对整体数据进行初步了解; 并在因子分析的基础上进行聚类分析, 对各地 区依据消费水平的高低进行分类; 还可以参数检验判断不同地区的农民生活水平是否存在差 异;若引入时序数据,则可进一步进行关联分析,预测某些地区未来的消费结构变化。本人 会在数据分析的基础上,结合实际进行分析,解释数据结果的实际意义。由于精力有限,此 次实验本人计划主要进行三项数据分析: 1. 描述性分析 2. 基于主成分法的因子分析 3. 在因子分析的基础上,用 Cluster 和 Tree 过程进行聚类分析 注:部分内容为参考教材自学,理解可能不甚透彻,若有错误恳请老师指出。
聚类分析与因子分析
实例分析与计算机实现一在SPSS中利用系统聚类法进行聚类分析二在SPSS中利用K均值法进行聚类分析一、在SPSS 中利用系统聚类法进行聚类分析设有20个土壤样品分别对5个变量的观测数据如表3.16所示,试利用系统聚类法对其进行样品聚类分析。
样品号 含沙量1X淤泥含量2X粘土含量3X有机物4XPH 值5X 1 77.3 13.0 9.7 1.5 6.4 2 82.5 10.0 7.5 1.5 6.5 3 66.9 20.0 12.5 2.3 7.0 4 47.2 33.3 19.0 2.8 5.8 5 65.3 20.5 14.2 1.9 6.9 6 83.3 10.0 6.7 2.2 7.0 7 81.6 12.7 5.7 2.9 6.7 847.836.515.72.37.2表3.16 土壤样本的观测数据样品号 含沙量 1X淤泥含量 2X粘土含量 3X有机物4XPH 值5X 9 48.6 37.1 14.3 2.1 7.2 10 61.6 25.5 12.6 1.9 7.3 11 58.6 26.5 14.9 2.4 6.7 12 69.3 22.3 8.4 4.0 7.0 13 61.8 30.8 7.4 2.7 6.4 14 67.7 25.3 7.0 4.8 7.3 15 57.2 31.2 11.6 2.4 6.3 16 67.2 22.7 10.1 33.3 6.2 17 59.2 31.2 9.6 2.4 6.0 18 80.2 13.2 6.6 2.0 5.8 19 82.2 11.1 6.7 2.2 7.2 2069.720.79.63.15.9(一)操作步骤1. 在SPSS窗口中选择Analyze→Classify→Hierachical Cluster,调出系统聚类分析主界面,并将变量X1~X5移入Variables框中。
在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。
兰大管理学院因子聚类案例分析
基于因子分析与聚类分析的辽宁省区域经济综合评价姓名:专业:学号:基于因子分析与聚类分析的辽宁省区域经济综合评价(兰州大学管理学院信息管理与信息系统)摘要:以2010年辽宁省经济数据为基础,采用因子分析与聚类分析相结合的方法对辽宁省区域经济的发展现状进行了实证分析与综合评估。
本研究结果可为下一步辽宁省政府出台政策以提振区域经济发展及平衡地区差异提供决策参考。
关键词:区域经济;因子分析;聚类分析;在辽宁省现辖的14 个城市中,区域经济发展存在着很大的差距。
本文采用因子分析与聚类分析相结合的方法,对辽宁省区域经济的发展状况进行综合评价,旨在为辽宁经济的可持续发展提供决策参考。
1.方法原理因子分析是一种主要用于数据化简和降维的多元统计分析方法。
它将相关性较强的几个变量归在同一个类中,每一类赋予新的名称,成为一个因子,反映事物的一个方面,或者说一个维度。
这样少数的几个因子就能够代表数据的基本结构,反映信息的本质特征。
更可以进一步从原始观测量的信息推出因子的值,然后用这些因子代替原来的变量进行其他统计分析。
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
系统聚类法是聚类分析诸方法中用的最多的一种,其基本思想是:开始将n 个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。
2.实证分析2.1样本数据的选取本文选取以下9 项指标:X1:年平均人口(万人),X2:地区生产总值(万元),X3:人均地区生产总值(元),X4:地方财政一般预算内收入(万元),X5:全社会固定资产投资总额(万元),X6:社会消费品零售总额(万元),X7:当年实际使用外资金额(万美元),X8:城镇居民人均可支配收入(元),X9:农民家庭人均收入(元)。
原始数据如下表1所示:2.2样本数据的处理考虑到各指标数据的差异以及使得分析结果更加有效,首先将样本数据进行标准化处理,处理后的数据消除了量纲之间的差异(表2所示)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 因子分析与聚类分析理论简介1.1 因子分析法因子分析法是一种通过分析多个变量间协方差矩阵(或相关系数矩阵)的内部依赖关系,找出能代表所有变量的少数几个随机变量的计量分析方法。
其中,找出的几个随机变量是不可测量的,将其称为公因子。
每个公因子之间是互不相关的,所有变量都可以由这几个公因子的线性表示。
因子分析通过减少变量的数目,用少数因子代替所有变量去分析整个经济问题,大大简化了现实分析过程。
假设有N 个样本,P 个指标,()TP X X X X ,,,21⋅⋅⋅=是随机向量,需要寻找的公因子是()Tm F F F F ,,,21⋅⋅⋅=,则将模型112121111ε++⋅⋅⋅++=m m F a F a F a X 222221212ε++⋅⋅⋅++=m m F a F a F a X...p m pm p p p F a F a F a X ε++⋅⋅⋅++=2211称为因子模型。
将矩阵()ij a A =称为因子载荷矩阵,将ij a 称为因子载荷(Loading ),因子载荷的实质是公因子Fi 与变量Xj 的相关系数。
其中,ε为特殊因子,代表公因子以外的影响因素,在实际分析时一般忽略不计。
对于需要求出的的公因子,其实际含义取决于该公因子在哪些变量上有较大的载荷。
但一般情况下,初始因子模型的因子载荷矩阵都比较复杂,不利于因子的解释。
因此可进一步通过因子旋转,给出对各公因子更加合理明显的解释。
公因子求出后,可以进一步用回归估计等方法求出各个公因子得分的数学模型,将其表示成变量的线性形式,从而计算求出得分。
模型如下:n in i i i X b X b X b F +⋅⋅⋅++=2211 (i = 1,2,...,m )1.2 层次聚类法聚类分析的实质是按照距离的远近将数据分为若干个类别,以使得类别内数据的“差异”尽可能小,类别间的“差异”尽可能大。
“差异”的描述是通过距离或相似性的方法来描述。
在统计学中最常用的是距离表达式欧几里得距离,对于两条数据),,(111z y x 和),,(222z y x ,欧几里得距离的计算公式是:221221221)()()()2,1(z z y y x x Euclid -+-+-=本文应用的是聚类分析法中的层次分析法,选用的是欧几里得距离的计算方法。
层次分析法通过把距离接近的数据一步一步归为一类,直到数据数据完全归为一个类别为止,再利用一些相应的指标来确定聚为几类的结果是最为合适的。
显然,这一系列的聚类结果存在着嵌套,或者说是层次的关系,由于这种结果上的层次关系,整个分析过程,特别是每一步中完成的合并或分割都可以用一张二维空间的图形来表示,这种图被称为“树状图”,是层次聚类法结果解释的重要工具。
本文也将利用这一工具对我国商业银行竞争力水平进行研究。
2 股份制商业银行竞争力的实证分析2.1 样本数据的选取和处理一、样本选取本文评价的是我国股份制商业银行的竞争力,以我国国有商业银行和城市商业银行的比较研究得出我国股份制商业银行竞争力的优势与劣势。
由于数据选取的局限性(在本文写作过程中,各家商业银行还未全部公布2009年年报),本文数据主要来自于各商业银行的年报数据[44]以及各家银行网站披露相关信息,因此鉴于数据搜集原因,本文采用了2008年的股份制商业银行、国有商业银行和城市商业银行的的数据。
同时由于无法获得中国光大银行、广东发展银行、恒丰银行、浙商银行和渤海银行等五家银行的财务报表(这五家股份制商业银行不是上市商业银行,非上市银行披露的数据一般不具有全面性和及时性,真实度也较差),所以本文最终研究的是7家股份制商业银行:中信银行、华夏银行、深圳发展银行、招商银行、上海浦东发展银行、兴业银行、民生银行。
同理,本文选取了4家国有商业银行1作为比较研究对象:中国工商银行、中国银行、中国建设银行和交通银行。
考虑到已上市城市商业银行也具有一定的竞争力,在某些方面有借鉴之处,且代表了城市商业银行的新兴力量,因此将已上市的3家城市商业银行纳入股份制商业银行竞争力对比研究当中,作为比较研究对象,这3家已上市城市商业银行为:北京银行、上海银行、南京银行。
二、指标的标准化在指标处理前,先要对原始数据标准化,标准化后的变量为X*i,j ,即第i 个银行的j 指标,具体的标准化如下:对于正指标:ij ij ij ij ij X manX X X X min min *--=对于逆指标:ijij ij ij ij X X X X X min max max *--=其中,正指标与银行竞争力得分呈正相关关系,相应的逆指标与竞争力得分成负相关关系。
标准化消除了正逆指标的影响,正指标原本越大,处理后也越大,逆指标情况则相反。
2.2 实证分析2.2.1 因子分析运用SPSS 软件对原始指标数据进行实证分析,可以得到相关系数矩阵及变量共同度表,见表 2.1,分析可得所有变量的共同度都比较大。
变量共同度说明了全部公因子反映出原变量信息的百分比,描述了全部公因子对变量X 的总方差所做的贡献。
较大的变量共同度说明变量空间转化为因子空间时,保留了比较多的信息。
12008年中国银监会我国银行业的最新分类将交通银行从股份制商业银行划转为国有商业银行。
所以进行因子分析是有依据的。
表 2.1 变量共同度表对SPSS软件产生的总方差分析表进行整理,可以得到表 2.2的各因子对原始指标数据的贡献率。
表 2. 2 因子分析特征值及方差贡献率表Tab. 2.2 Eigen value and variance contribution of factor analysis table 因子特征值方差贡献率(%)累计贡献率(%)F1 7.25827.916 27.916F2 4.93018.960 46.876F3 2.898 11.145 58.021F4 2.788 10.722 68.743F5 2.767 10.644 79.387F6 2.323 8.936 88.323 由上表2.2可知,因子F1~F6对原始指标数据的累计贡献率达到88.323%,超过了85%的标准,其特征值也较大,均超过1的标准;同时,因子中F1的方差贡献率最大,为27.916%,其次是F2,为18.960%,说明因子F1和F2是银行竞争力因素中更重要的因素。
通过SPSS软件产生的碎石图可以更直观的挑选出特征值较大的因子,从第F7开始,折线趋于平缓。
因此,我们选择Fl~F6作为决定商业银行竞争力的公因子。
图2.1 碎石图从SPSS 软件我们可以得到因子F1~F6的载荷矩阵()ij a A =。
因子载荷ij a 是实际上就是公因子Fi 和变量Xj 的相关系数,表示变量Xj 依赖因子Fi 的程度,反映变量Xj 对于公因子Fi 的重要性。
因此,因子载荷ija 的绝对值越大,表示变量Xj对公因子Fi 越重要。
通过正交旋转得到的因子载荷矩阵,即表 2.3,可以进一步明确因子的具体意义。
表 2.3 正交旋转后的因子载荷矩阵Tab. 2.3 Orthogonal rotated factor loading matrix指标因子1 2 3456资产利润率X1 0.220 0.741 0.167 0.500 0.046 0.016 净资产收益率X2 0.007 -0.074 -0.058 0.970 0.076 0.060 每股收益X3 -0.268 -0.052 0.185 0.862 -0.001 0.140 人均利润率X4 -0.308 0.593 0.016 0.563 -0.447 -0.051 营业费用率X5 0.471 0.603 0.049 0.031 -0.437 -0.123 资本充足率X6 0.020 0.962 -0.066 -0.153 -0.113 0.074 核心资本充足率X7 0.086 0.955 -0.014 -0.198 -0.064 0.011 不良贷款率X8 -0.672 -0.177 0.658 0.089 -0.137 0.133 贷款损失准备率X9 0.508 0.354 -0.692 0.297 -0.040 -0.028 最大客户贷款比率X10 0.110 -0.137 0.046 0.083 0.928 -0.049 十大客户贷款比率X11 0.355 -0.215 -0.015 0.017 0.823 -0.236 人民币流动性比率X12 -0.322 0.468 -0.156 0.095 -0.413 -0.319 外币流动性比率X13 -0.1180.8730.079 0.053 -0.107 0.303存贷比X14 0.757 0.469 0.006 -0.264 -0.157 0.142 现金资产比率X15 -0.429 0.013 -0.235 -0.175 0.452 -0.546 总资产X16 0.919 -0.047 -0.192 -0.088 0.179 -0.191 机构网点数X17 0.919 -0.047 -0.192 -0.088 0.179 -0.191 存款份额X18 0.935 -0.132 -0.180 0.004 0.193 -0.091 贷款份额X19 0.925 -0.159 -0.198 0.014 0.204 -0.118 存款增长率X20 -0.169 0.161 0.896 0.102 0.113 0.079 贷款增长率X21 -0.487 0.310 0.667 0.084 0.004 0.233 股权集中程度X22 -0.507 0.011 0.204 0.015 -0.156 0.789 股东集中程度X23 -0.137 0.220 0.006 0.108 -0.004 0.876 流通股占比X24 -0.583 -0.316 0.269 0.179 -0.204 0.336 非利息收入占比X25 0.234 0.109 -0.507 -0.392 0.388 -0.001 本科以上学历员工占比X26-0.856-0.2520.2470.1640.098-0.175根据上表,得到因子模型:X1 = 0.220 F1 + 0.741 F2 + …… + 0.046 F5 + 0.016 F6 X2 = 0.007 F1 — 0.074 F2 + ……+ 0.076 F5 + 0.060 F6 ……X24 = 0.234 F1 + 0.109 F2 + ……+ 0.388 F5 — 0.001 F6 X25 = -0.856 F1 — 0.252 F2 + ……+ 0.098 F5 — 0.175 F6从因子模型可以看出,因子F1的总资产、机构网点数、存款份额、贷款份额、本科学历以上员工占比、存贷比的系数分别为0.919、0.919、0.935、0.925、0.856、0.757,远大于其他变量的系数,所以因子F1主要是代表银行规模、市场占有率、人力资源以及流动性的因子;因子F2的资本充足率、核心资本充足率、外币流动性比率、资产利润率、人均利润率、营业费用率的系数分别为0.962、0.955、0.873、0.741、0.593、0.603,大于其他变量的系数,所以因子F2主要代表的是资本充足度、流动性和盈利性因子;因子F3的存款增长率、贷款增长率、不良贷款率、贷款损失准备率、非利息收入占比的系数分别为0.896、0.667、0.658、0.692、0.507,远大于其他变量的系数,所以F3主要反映银行的市场份额增长率、资产质量以及创新能力;因子F4的净资产收益率、每股收益的系数分别为0.970、0.862,显著大于其他变量的系数,所以F4主要反映银行的盈利性;因子F5的最大客户贷款比例、十大客户贷款比例的系数分别为0.928、0.823,远大于其他变量的系数,所以F5主要代表银行的贷款集中度;因子F6的股权集中程度、股东集中程度的系数分别为0.789、0.876,远大于其他变量的系数,所以F6主要反映银行公司治理情况。