利用spss对某个班成绩的多元统计分析.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对一所重点学校某个班成绩的综合分析
摘要
随着社会竞争的越来越激烈,家长和老师对于学生成绩的态度愈加重视,对于学生将来的发展与前途也同样感到一丝忧虑,因此及时公布学生的学习成绩并且能够增其长补其短对于学生将会有很大的帮助。
本文利用某所重点学校某个班的成绩单来分析这个班学生成绩的优劣,以达到取长补短的目的,主要应用了SPSS软件对成绩进行了综合性的分析。
关键词:综合分析;SPSS软件;成绩
目录
1.对应分析的概述 (1)
2.聚类分析的概述 (3)
2.1聚类分析的定义 (3)
2.2聚类的方法分类 (3)
2.3系统聚类法的基本步骤 (3)
3.判别分析的概述 (4)
3.1判别分析的基本思想 (4)
3.2判别分析与聚类分析的关系 (4)
4.在SPSS软件上的操作步骤 (5)
4.1对应分析的操作步骤 (5)
4.2聚类分析与判别分析的操作步骤 (6)
5.结果分析 (7)
5.1对应表 (7)
5.2汇总 (7)
5.3概述行点和概述列点 (8)
5.6 特征值 (11)
5.7 显著性检验 (11)
5.8 标准化典型判别式函数系数 (11)
5.9 结构矩阵 (12)
5.10 群组重心的函数 (12)
5.11 分类函数系数 (13)
6.结论 (14)
7.对创新的认识 (15)
参考文献 (16)
附录 (17)
1.对应分析的概述
对应分析(correspondence analysis )又称为相应分析,是一种目的在于揭示变量和样品之间或者定性变量资料中变量与其类别之间的相互关系的多元统计分析方法。
根据分析资料的类型不同,对应分析分为定性资料(分类资料)的对应分析和连续性资料的对应分析(基于均数的对应分析)。
其中,根据分析变量个数的多少,定性资料的对应分析又分为简单对应分析和多重对应分析。
对两个分类变量进行的对应分析称为简单对应分析,对两个以上的分类变量进行的对应分析称为多重对应分析。
对应分析实际是在R 型因子分析和Q 型因子分析的基础上发展起来的一种方法。
对应分析将R 型因子分析和Q 型因子分析结合起来进行统计分析,它是从R 型因子分析出发,而直接获得Q 型因子分析的结果。
克服了由于样品容量大,进行Q 型因子分析带来的计算上的困难。
另外根据对原始数据进行规格化处理,找出R 型因子分析和Q 型因子分析的内在联系,可将变量和样品同时反映到相同坐标轴的一张图形上,便于对问题的分析和解释。
对应分析的重要输出结果之一在于,把变量与样品同时反映到相同坐标轴(因子轴)的一张图形上,结合计算结果,在绘出的图形上能够直观地观察变量之间的关系、样品之间的关系以及变量与样品之间的对应关系。
为此也有人认为,对应分析的实质是将变量、样品的交叉表变换成为一张散点图,从而将表格中包含的变量、样品的关联信息用各散点空间位置关系的形式表现出来。
随着计算机软件的应用,对应分析的方法在社会科学和自然科学领域都有着广泛的应用价值。
特别是近年来在市场调查与研究中,有关市场细分、产品定位、品牌形象以及满意度研究等领域正得到越来越广泛的重视和应用。
对应分析的关键是利用一种数据变换,使含有p 个变量n 个样品的原始数据矩阵,变换成为一个过渡矩阵Z ,并通过矩阵Z 将R 型因子分析和Q 型因子分析有机地结合起来。
具体地说,首先给出进行R 型因子分析时变量点的协差阵
Z Z A '=和进行Q 型因子分析时样品点的协差阵Z Z B '=,由于Z Z '和Z Z '有相同
的非零特征根,记为
m λλλ≥≥≥Λ21,),min(0n p m ≤<,
依据证明,如果A 的特征根i λ对应的特征向量为i U ,则B 的特征根i λ对应的特征向量就是i i V ZU ∆,根据这个结论就可以很方便地借助R 型因子分析而得到Q 型因子分析的结果。
因为求出A 的特征根和特征向量后很容易地写出变量点协差阵对应的因子载荷矩阵,记为F 。
则
⎪⎪⎪⎪
⎪
⎭
⎫
⎝⎛=m pm p p m m m m u u u u u u u u u F λλλλλλλλλΛ
M M M ΛΛ2
21
122
221
2112121
11 这样,利用关系式i i V ZU ∆也很容易地写出样品点协差阵B 对应的因子载荷阵,记为G 。
则
⎪⎪⎪⎪
⎪
⎭
⎫
⎝⎛=m nm n n m m m m v v v v v v v v v G λλλλλλλλλΛ
M M M ΛΛ2
21
122
221
2112121
11 从分析结果的展示上,由于A 和B 具有相同的非零特征根,而这些特征根正是公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便显示出变量点和样品点之间的相互关系,并且可以一并考虑进行分类分析。
2.聚类分析的概述
2.1聚类分析的定义
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。
聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法。
所谓的“类”,通俗地说就是相似元素的集合。
2.2聚类的方法分类
聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:系统聚类法、调优法、最优分割法、模糊聚类法、图论聚类法、聚类预报法。
本文中应用的是系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度,这一过程一直继续直到所有对象归为一类为止。
并类的过程可用一张谱系聚类图描述。
2.3系统聚类法的基本步骤
(1)计算n 个样品两两间的距离,得样品间的距离矩阵)0(D 。
类与类之间的距离本文应用的是类平均法。
所谓类平均法就是:两类样品两两之间平方距离的
平均作为类之间的距离,即:221
e e e
pq ij
i G j p q
D d
n n =
∑采用这种类间距离的聚 类方法,
称为类平均法。
(2) 初始(第一步:i=1)n 个样本各自构成一类,类的个数k=n ,第t 类 {})(t t X G =(t=1,2···,n )。
此时类间的距离就是样品间的距离(即)0()1(D D =)。
(3)对步骤i 得到的距离矩阵)1(-i D ,合并类间距离最小的两类为一新类。
此时类的总个数k 减少1类,即k=n-i+1.
(4)计算新类与其他类的距离,得新的距离矩阵)0(D 。
若合并后类的总个数k 扔大于1,重新步骤(3)和(4);直到类的总个数为1时转到步骤(5)。
(5)画谱系聚类图;
(6)决定总类的个数及各类的成员。
3.判别分析的概述
3.1判别分析的基本思想
判别分析是用于判断个体所属类别的一种统计方法。
根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。
当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。
其前提是总体均值有显著差异,否则错分率大,判别分析无意义。
3.2判别分析与聚类分析的关系
区别:判别分析是在研究对象分类已知的情况下,根据样本数据推导出一个或一组判别函数,同时指定一种判别准则,用于确定待判样品的所属类别,使错判率最小。
聚类分析预先不知道分类,它要解决的问题,正是对给定的未知分类的样品进行分类,它是一种纯统计技术,只要有多指标存在,就能根据各观测的变量值近似程度排序,只是描述性的统计,而判别分析能对未知分类观测判别分类,带有预测性质。
联系:两者都是研究分类问题,两种方法往往联合起来使用。
样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。
4.在SPSS软件上的操作步骤
4.1对应分析的操作步骤
(1)打开SPSS文件,在表格下方有两个选项,分别是数据试图和变量视图,点击变量视图选项,在前三行分别输入“学号”、“科目”、“成绩”,其中学号与科目的值项需要做如下设置:在弹出的值标签对话框里,在值这一项里输入“1”,标签输入“1”,再点击“添加”按钮,依次添加到40为止,在科目的值标签对话框内,在值这一项中输入“1”,标签输入“语文”,点击“添加”按钮,再依次添加“2”对应标签为“数学”,“3”对应标签为“外语”,“4”对应标签为“体育”,综上分别完成对1号至40号学号以及4项科目进行数字的赋值。
然后点击数据视图进行数据输入,数据输入按照成绩单输入(成绩单见附录),如:第一行第一列输入“1”,第二列输入“1”,第三列输入“82”,第二行第一列输入“2”,第二列输入“1”,第三列输入“81”,以此类推,共输入160行数据。
在SPSS的数据视图中输入数据后,再依次点选数据→加权个案,进入加权个案的对话框,系统默认是对观测值不使用权重,选中加权个案选项,此时下面的频率变量被激活,选中成绩并点击箭头,使变量成绩充当权数的作用,点击确定。
(2)数据输入完成后,选择分析→降维→对应分析,然后把“学号”选入“行”,再点击“定义范围…”来定义范围为1(最小数值)到40(最大数值),之后点击更新,再点击继续。
之后同样地,把“科目”选入“列”,并定义其范围为1~4。
然后点选“模型”,在出现的对话框中选择数据标准化方法,本次分析距离度量点选Eucliden,下面的标准化方法选择选项被激活,有5种可供选择的数据标准化方法,本次分析选择第5种:使列总和相等,删除均值,其余选项为默认,点击确定运行。
(3)图表编辑:根据SPSS对数据的计算,会得到一系列的表格,对对后一张叠加散点图进行部分操作,双击叠加散点图会弹出一个图表编辑器,点击“向X轴添加参考线”又会弹出一个属性对话框,把位置坐标改为0,关闭对话框,点击“向Y轴添加参考线”,同上步骤将位置坐标改为0,关闭图表编辑器,此时叠加散点图被分为4各区域,方便于接下来的结果分析。
4.2聚类分析与判别分析的操作步骤
1.再次打开SPSS文件,点击变量视图选项,在前七行分别输入“学号”、“语文”、“数学”、“外语”、“体育”、“总分”、“概况”,其中概况的值项需要做如下设置:在弹出的值标签对话框里,在值这一项里输入“1”,标签输入“优”,再点击“添加”按钮,依次添加“2”对应标签为“良”,“3”对应标签为“及格”,“4”对应标签为“不及格”,综上分别完成对4种概况进行数字的赋值。
然后同样点击数据视图进行数据输入,数据输入依然按照成绩单输入(成绩单见附录)。
2. 数据输入完成后,选择分析→分类→系统聚类,然后把“语文”、“数学”、“外语”、“体育”选入变量中,然后点击“绘图”,在出现的对话框中勾选谱系图,其余选项为默认,点击继续,确定运行。
3.再次选择分析→分类→判别,然后把“概况”选入分组变量中,再点击“定义范围…”来定义范围为1(最小数值)到4(最大数值),然后将“语文”、“数学”、“外语”、“体育”选入自变量中,然后点击“Statistics…”,在出现的对话框中勾选平均值与Fisher’s,其余选项为默认,点击继续,确定运行。
5.结果分析
5.1对应表
输出的第一部分对应表是由原始数据学号与科目分类的列联表,可以看出观测总数n=40,说明原始数据中没有记录缺失,有效边际为行列数的总和。
5.2汇总
表5.2
第二部分汇总表给出了总惯量以及每一维度所揭示的总惯量的百分比的信息。
可知总惯量为0.01,卡方值为0.4,有关系式:总惯量=卡方值*观测总数(0.4=0.01*40),由此可以清楚地看到总惯量与卡方值的关系,同时说明总惯量描述了列联表行与列之间总的相关关系。
奇异值所反映的是行与列个状态在二维图中分值的相关程度,实际上是对行与列进行因子分析产生的新的综合变量的典型相关系数,其在取值上等于特征值的平方根。
惯量比例部分是各维度分别解释总惯量的比例及累计百分比,从表中可以看出第一维和第二维的惯量比例占总惯量的81.3%,因此可以选取两维来进行分析。
5.3概述行点和概述列点
表5.3
5.4
由以上两张坐标表可以得出如下的叠加散点图,也是输出的最后一部分,是学号各状态与科目各状态同时在一张二维图上的投影。
在图上既可以看到每一变量内部各状态之间的相关关系,又可以同时考察两变量之间的相关关系。
在同一变量内部,在各学科间,体育与各状态之间距离相近,而外语可以单独归为一类,对于语文,各学号之间的距离均很近,语文与体育距离比较相近,则可以将体育和语文归为一类,外语分为一类,数学分为一类,很明显的形成了三大类。
同时考察两变量各状态,可以看出这个班的同学的成绩语文与体育偏好,周围的学号也较为集中,分数比较接近,也就是说这个班语文成绩与体育成绩没有特别显著的特点。
学号7与学号36离数学较远,说明他与数学的相关性越小,学号28、学号26与学号35离外语较远,说明他与位于的相关性越小,换言之,他们该科成绩较低。
而再观察学号较为集中的区域内,也说明大部分学号都与体育和语文的相关性较大。
再从每个学号出发,如1号距离外语的距离相对于它距离其他三个科目而言是较远的,所以1号要加强对外语的练习,2号和1号的不同在于它离外语的距离接近它离数学的距离,也就是说2号在加强外语练习的同时还要兼顾着对语文的练习。
以上是由SPSS默认设置得到的结果。
实际研究中,可以采用创新思维,根据不同的研究目的对散点图进行研究。
运用向量分析了解学科偏好排序。
我们可以从中心向任意点连线作向量,例如从中心向语文做向量,然后让所有的学号往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好这种学科。
即偏好语文的学生学号依次是9号、1号、2号、3号等等。
依次类推,也可以从中心往所有的学号作向量,得到每一个学生在选择4学科上的偏好排名,如28号的偏科情况为数学、语文、体育、外语。
接着,我们可以从向量夹角的角度看不同学科或不同学生之间的相似情况,从余弦定理的角度看相似性。
从图上我们可以看出,当我们从中心向任意两个学号(相同类别)做向量的时候,夹角是锐角的话表示两个学生具有相似性,锐角越小越相似。
也就是说,2号和5号是相似成绩,当然也是竞争者,也具有替代性;我们也看出数学与外语就有非常大的差异了。
因为如果作向量他们是几乎是直角了。
5.5树状图
图5.2
5.6 特征值
表5.5
第六部分反映了判别函数的特征根,解释方差的比例和典型相关系数,第一判别函数解释了99.3%的方差,第二判别函数解释了0.6%的方差,第三判别函数解释了0.1%的方差。
5.7 显著性检验
表5.6
第七部分是对三个判别函数的显著性检验,看出第一判别函数在0.05的显著性水平上是显著的,第二与第三判别函数不显著。
5.8 标准化典型判别式函数系数
表5.7
標準化典型區別函數係數
函數
1 2 3
语文.903 .134 .539
数学 1.387 -.246 -.578
外语 1.463 -.268 .392
体育.772 .947 .024
第八部分可以看出判别系数表示为:
463
.0
.1
=772
.0
⨯
903
.1
387
y
数学
外语
体育
语文⨯
+
⨯
+
⨯
+
1
-
.0
268
246
.0
.0
134
-
y
.0
数学
外语
体育
语文⨯
+
⨯
⨯
⨯
=947
2
.0
392
.0
578
=024
.0
539
.0-
y
+
数学
外语
体育
⨯
语文⨯
⨯
+
⨯
3
5.9 结构矩阵
表5.8
第九部分是结构矩阵,即判别载荷,由权重和判别载荷可以看出,外语对判别函数1与判别函数3的贡献较大,体育对判别函数2的贡献较大。
5.10 群组重心的函数
表5.9
群組重心的函數
概况函數
1 2 3
优 4.568 -.216 .119
良 1.191 .064 -.101
及格-2.343 .244 .090
不及格-5.289 -.450 -.021
以群組平均值求值的非標準化典型區別函數
第十部分是反应判别函数在各组的重心,根据结果,判别函数在y=1这一组的重心为(4.568,-0.216,0.119),在y=2这一组的重心为(1.191,0.064,-0.101),在y=3这一组的重心为(-2.343,0.244,0.09),在y=4这一组的重心为(-5.289,-0.45,-0.021),这样我们就可以根据每个观测的判别Z得分对观测进行分类。
5.11 分类函数系数
表5.10
分類函數係數
概况
优 良 及格 不及格 语文 10.376 9.910 9.454 9.036 数学 10.262 9.702 9.091 8.625 外语 11.952 11.258 10.559 9.992 体育 20.599 19.917 19.176 18.325 (常數)
-2400.472
-2190.839
-1982.558
-1799.533
費歇 (Fisher) 線性區別函數
第十一部分是每组的分类函数(区别于判别函数),也称费歇现行判别函数,由表中结果可以说明: y=1这一组的分类函数是
体育外语数学语文599.20952.11262.10376.10472.2400-1++++=f y=2这一组的分类函数是
体育外语数学语文917.19258.11702.991.9839.2190-2++++=f y=3这一组的分类函数是
体育外语数学语文176.19559.10091.9454.9558.1982-3++++=f
y=4这一组的分类函数是
体育外语数学语文325.18992.9625.8036.9533.1799-4++++=f
可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。
6.结论
我们通过联系所学的课程《多元统计分析》,用对应分析、聚类分析、判别分析相结合解决实际问题,并发散思维,跳出书本,运用不同的方法解读统计学的多元统计分析。
在判别分析的结果中也可以看出17号,27号与39号同学与原始概况有所不同,17号成绩概述为良,而判别分析后为及格,27号成绩概述为及格,判别分析后为良,39号成绩概述为及格,判别分析后为不及格,说明这三位同学的观测值(即成绩)处于判别分类的交界处,只要成绩稍一提高就可以进入上一类别,也就是说老师的辅导重心不用放在这三位同学身上。
从输出结果中得出结论,这个班级的体育成绩是最为平衡的,也体现出这个班学生的身体素质是很好的,其次是这个班的语文成绩也是相对平均的,但是也不难看出,外语与数学是这个班的软肋。
同时可以说明28号同学与7号同学是偏科最为严重的,另外35号同学和26号同学也比较偏科。
从这个班目前的学习状况来看,这个班体育成绩应当继续保持,拥有健康的体质才是学习的前提条件,语文成绩要从整体来提高,从整个班级入手,加强对学生平时的课程练习,争取下一次的考试成绩能够稳定到90分以上,对于数学与外语科目,老师要多多的关注那些偏科的学生,例如外语老师就要多关注学号为28、26、35的这三位同学,数学老师就要多关注学号为36、7的这两位同学,这样补上他们的短板,对整个班级成绩的影响也是非常重要的。
我们本次课设将创新主要应用在对应分析这一方面,具体体现在散点图分析中,之前只考虑了变量间点与点的距离,通过创新以后,本次新引入了向量分析与余弦定理,能够更全面的看出变量与变量之间更多的联系。
7.对创新的认识
创新就是主体根据一定的目的和任务,在一定的基础上,开展理性的、理智的能动思维,产生出新颖独特的、前所未有精神成果和物质成果的行为活动。
统计事业发展的过程本身就是一个创新的过程。
统计萌芽于原始社会末期。
从统计社会实践几千年的发展史我们知道:无论是统计对象、还是统计数据的观测手段、运算工具等,都不是一成不变的,无不随着时间的推移而变化发展,而他们变化发展的过程就是一个对旧事物扬弃的过程,就是一个创新的过程。
统计事业的现在和未来更需要创新。
随着市场经济体制的确立和发展,我国在全面走向小康社会的同时,如何与时俱进地依托国际、国内两种资源,利用国际、国内两个市场,有效地应对经济全球化给我们带来的影响,将不可避免的会出现更多、更复杂的新情况、新问题,这也给统计工作带来了更高、更新的挑战,我们只有不断拓展我们的统计对象、统计思维、统计视觉、统计分析方法、统计制度、统计手段、统计理论,才能使我们的工作做的更加的有效,反映不断变化的客观实际,从而使我们的工作变得更加的有意义和价值。
参考文献
[1] 赵选民主编. 试验设计方法[M]. 科学出版社,2006年版
[2] 何晓群编. 多元统计分析[M]. 中国人民大学出版社,2015年版
[3] 宇传华编. SPSS 与统计分析[M]. 电子工业出版社,2007年版
[4] 罗积玉主编. 经济统计分析方法与预测[M]. 清华大学出版社,1990年版
附录。