多元统计分析(聚类分析,判别分析,对应分析)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
h
11
对应分析
概述
对应分析的重要输出结果之一在于,把变量与样品同时反映到相同 坐标轴(因子轴)的一张图形上,结合计算结果,在绘出的图形上能 够直观地观察变量之间的关系、样品之间的关系以及变量与样品 之间的对应关系。为此也有人认为,对应分析的实质是将变量、 样品的交叉表变换成为一张散点图,从而将表格中包含的变量、 样品的关联信息用各散点空间位置关系的形式表现出来。
(5)画谱系聚类图; (6)决定总类的个数及各类的成员。
h
聚类分析 6
结果分析
返回
h
判别分析 7
概述
判别分析是用于判断个体所属类别的一种统计方法。根据已知观 测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判 别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标 代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意 义上是最优的,如错判概率最小或错判损失最小等。其前提是总体均 值有显著差异,否则错分率大,判别分析无意义。
h
目录 3 h
聚类分析 4 定义 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚
类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计 方法。所谓的“类”,通俗地说就是相似元素的集合。
h
聚类分析 5
基本步骤
(1)计算n个样品两两间的距离,得样品间的距离矩阵 。类与类之间的距 离本文应用的是类平均法。所谓类平均法就是:两类样品两两之间平方距 离的平均作为类之间的距离,即: 采用这种类间距离的聚 类方法,称为 类平均法。
(2) 初始(第一步:i=1)n个样本各自构成一类,类的个数k=n,第t类 (t=1,2···,n)。此时类间的距离就是样品间的距离(即 )。
(3)对步骤i得到的距离矩阵 ,合并类间距离最小的两类为一新类。此时类 的总个数k减少1类,即k=n-i+1.
(4)计算新类与其他类的距离,得新的距离矩阵 。若合并后类的总个数k扔 大于1,重新步骤(3)和(4);直到类的总个数为1时转到步骤(5)。
h
9
判别分析
標準化典型區別函數係數
语文 数学 外语 体育
1 .903 1.387 1.463 .772
函數 2 .134 -.246 -.268 .947
3 .539 -.578 .392 .024
该部分可以看出判别系数表示为:
y 1 0 . 9 语 0 1 . 3 文 数 8 1 . 7 4 学 外 6 0 . 3 7 语 体 72育 y 2 0 .1 语 3- 4 0 .2 文 数 4- 6 0 .2 学 外 6 8 0 .9 语 体 47育 y 3 0 . 5 语 3- 0 9 . 5 文 数 7 0 8 . 3 学 外 9 0 2 . 0 语 体 24育
h
对应分析
返回
17
运用向量分析了解学科偏好排序。我们可以从中心向任意 点连线作向量,例如从中心向语文做向量,然后让所有的 学号往这条向量及延长线上作垂线,垂点越靠近向量正向 的表示越偏好这种学科。即偏好语文的学生学号依次是9号、 1号、2号、3号等等。依次类推,也可以从中心往所有的学 号作向量,得到每一个学生在选择4学科上的偏好排名,如 28号的偏科情况为数学、语文、体育、外语。 接着,我们可以从向量夹角的角度看不同学科或不同学生 之间的相似情况,从余弦定理的角度看相似性。从图上我 们可以看出,当我们从中心向任意两个学号(相同类别) 做向量的时候,夹角是锐角的话表示两个学生具有相似性, 锐角越小越相似。也就是说,2号和5号是相似成绩,当然 也是竞争者,也具有替代性;我们也看出数学与外语就有 非常大的差异了。因为如果作向量他们是几乎是直角了。
Wilks' Lambda (λ)
函數的檢定
Wilks' Lambda (λ) 卡方
df
1 至3
.083
87.142
12
2 至3
.936
2.302
6
3 .990
.352
2
顯著性 .000 .890 .839
是对三个判别函数的显著性检验,看出第一判 别函数在0.05的显著性水平上是显著的,第二 与第三判别函数不显著。
h
判别分析
结果分析
特徵值
函數 1
特徵值 10.291a
變異的 % 99.3
2
.057a
.6
3
.010a
.1
a. 前 3 個典型區別函數用於分析。
累加 % 99.3 99.9 100.0
典型相關性 .955 .233 .100
Hale Waihona Puke 反映了判别函数的特征根,解释方差的比例 和典型相关系数,第一判别函数解释了99.3% 的方差,第二判别函数解释了0.6%的方差, 第三判别函数解释了0.1%的方差。
对一所重点学校某个班成绩的综合分析
1
(综合创新思维训练与实践)
组员:邹俊逸 刘晓阳 拓锦鑫
h
前言
2
随着社会竞争的越来越激烈,家长和老师对于学生成绩的态度愈加重 视,对于学生将来的发展与前途也同样感到一丝忧虑,因此及时公布学 生的学习成绩并且能够增其长补其短对于学生将会有很大的帮助。本文 利用某所重点学校某个班的成绩单来分析这个班学生成绩的优劣,以达 到取长补短的目的,主要应用了SPSS软件对成绩进行了综合性的分析。
然后点击数据视图进行数据输入,数据输入按照成绩单输入,如:第一行第一列输入“1”,第二列输入 “1”,第三列输入“82”,第二行第一列输入“2”,第二列输入“1”,第三列输入“81”,以此类推,共输入160行数 据。在SPSS的数据视图中输入数据后,再依次点选数据→加权个案,进入加权个案的对话框,系统默认是 对观测值不使用权重,选中加权个案选项,此时下面的频率变量被激活,选中成绩并点击箭头,使变量成 绩充当权数的作用,点击确定。 • (2)数据输入完成后,选择分析→降维→对应分析,然后把“学号”选入“行”,再点击“定义范围…”来定义 范围为1(最小数值)到40(最大数值),之后点击更新,再点击继续。之后同样地,把“科目”选入“列”, 并定义其范围为1~4。然后点选“模型”,在出现的对话框中选择数据标准化方法,本次分析距离度量点选 Eucliden,下面的标准化方法选择选项被激活,有5种可供选择的数据标准化方法,本次分析选择第5种: 使列总和相等,删除均值,其余选项为默认,点击确定运行。 • (3)图表编辑:根据SPSS对数据的计算,会得到一系列的表格,对对后一张叠加散点图进行部分操作,双 击叠加散点图会弹出一个图表编辑器,点击“向X轴添加参考线”又会弹出一个属性对话框,把位置坐标改为 0,关闭对话框,点击“向Y轴添加参考线”,同上步骤将位置坐标改为0,关闭图表编辑器,此时叠加散点图 被分为4各区域,方便于接下来的结果分析。
.054
.050
.009
.044
.039
.014
贡献
维对点惯量
1
2
.348
.611
.659
.293
.259
.575
.767
.136
总计 .959 .952 .835 .903
质量 .250 .250 .250 .250
1.000
维中的得分
1 .000 .082 .540 .029
2 -.143 -.427 .065 -.013
h
12
对应分析
操作步骤 • (1)打开SPSS文件,在表格下方有两个选项,分别是数据试图和变量视图,点击变量视图选项,在前三行
分别输入“学号”、“科目”、“成绩”,其中学号与科目的值项需要做如下设置:在弹出的值标签对话框里,在 值这一项里输入“1”,标签输入“1”,再点击“添加”按钮,依次添加到40为止,在科目的值标签对话框内,在 值这一项中输入“1”,标签输入“语文”,点击“添加”按钮,再依次添加“2”对应标签为“数学”,“3”对应标签为 “外语”,“4”对应标签为“体育”,综上分别完成对1号至40号学号以及4项科目进行数字的赋值。
91.500
358.500
95.000
357.000
输出的第一部分对应表是由原始数据学号与科目 分类的列联表,可以看出观测总数n=40,说明原 始数据中没有记录缺失,有效边际为行列数的总 和。
14
维数 1 2 3 总计
汇总 惯量比例
置信奇异值
奇异值 .075 .052
惯量 .006 .003
解释 .548 .264
h
第三部分是对列联表行与列个状态有关信息的 概括(概述行点只截取了部分数据)。其中, 质量部分分别指列联表中行与列的边缘概率。 维中的得分是各维度的分值,指行列各状态在 二维图中的坐标值。如语文坐标为(-0.00,0.143)。惯量是每一行(列)与其重心的加权 距离的平方,可以看出I=J=0.01,即行剖面的总 惯量等与列剖面的总惯量。贡献部分是指行 (列)的每一状态对每一维度(公共因子)特 征值的贡献及每一维度对行(列)各个状态的 特征值等贡献。如第一维度中,外语对应的数 值最大,为0.975,说明外语这一状态对第一维 度的贡献最大。
h
13
对应分析
结果分析
学号 1 2 3 4
语文 82.000 81.000 83.000 72.000
对应表
数学 120.000 119.000 115.000 115.000
科目 外语 71.000 77.000 69.000 75.000
体育
有效边际
95.000
368.000
90.000
367.000
对应分析
16
由以上两张坐标表可以得出如下的叠加散点图,也是输出 的最后一部分,是学号各状态与科目各状态同时在一张二 维图上的投影。在图上既可以看到每一变量内部各状态之 间的相关关系,又可以同时考察两变量之间的相关关系。 在同一变量内部,在各学科间,体育与各状态之间距离相 近,而外语可以单独归为一类,对于语文,各学号之间的 距离均很近,语文与体育距离比较相近,则可以将体育和 语文归为一类,外语分为一类,数学分为一类,很明显的 形成了三大类。 同时考察两变量各状态,可以看出这个班的同学的成绩语 文与体育偏好,周围的学号也较为集中,分数比较接近, 也就是说这个班语文成绩与体育成绩没有特别显著的特点。 学号7与学号36离数学较远,说明他与数学的相关性越小, 学号28、学号26与学号35离外语较远,说明他与位于的相 关性越小,换言之,他们该科成绩较低。而再观察学号较 为集中的区域内,也说明大部分学号都与体育和语文的相 关性较大。
10
判别分析
概况 优 良 及格 不及格
群組重心的函數
1 4.568 1.191
-2.343 -5.289
函數 2 -.216 .064 .244 -.450
3 .119 -.101 .090 -.021
根据结果,判别函数在y=1这一组的 重心为(4.568,-0.216,0.119), 在y=2这一组的重心为(1.191, 0.064,-0.101),在y=3这一组的重 心为(-2.343,0.244,0.09),在 y=4这一组的重心为(-5.289,-0.45, -0.021),这样我们就可以根据每 个观测的判别Z得分对观测进行分类。
累积 .548 .813
标准差 .002 .002
.044
.002
.187
1.000
.010
1.000
1.000
相关 2 -.041
第二部分汇总表给出了总惯量以及每一维度所揭 示的总惯量的百分比的信息。可知总惯量为0.01, 卡方值为0.4,有关系式:总惯量=卡方值*观测总 数(0.4=0.01*40),由此可以清楚地看到总惯量 与卡方值的关系,同时说明总惯量描述了列联表 行与列之间总的相关关系。
h
体育 数学 外语 语文
函數 1 .142 .282 .288 .086
結構矩陣
2 .952* -.218 -.226 -.113
3 -.126 -.879* .604* .479*
该部分是结构矩阵,即判别载荷,由权重 和判别载荷可以看出,外语对判别函数1与 判别函数3的贡献较大,体育对判别函数2 的贡献较大。
h
对应分析 15
学号 1 2 3 4
科目 语文 数学 外语 体育 有效总计
质量 .025 .025 .025 .025
维中的得分
1 .242 .403 .168 .341
2 -.385 -.322 -.301 -.172
概述行点a
惯量 .000 .000 .000 .000
点对维惯量
1
2
.020
.071
概述列点a
惯量 .002 .003 .005 .000 .010
点对维惯量
1
2
.000
.099
.022
.880
.975
.021
.003
.001
1.000
1.000
贡献
1 .000 .047 .989 .039
维对点惯量 2 .135 .887 .010 .006
总计 .135 .934 .999 .045
h
判别分析 8
操作步骤
输入数据,选择分析→分类→判别,然后把“概况”选入分组变量中, 再点击“定义范围…”来定义范围为1(最小数值)到4(最大数值), 然后将“语文”、“数学”、“外语”、“体育”选入自变量中,然后点击 “Statistics…”,在出现的对话框中勾选平均值与Fisher’s,其余选项为默 认,点击继续,确定运行。