多元统计分析简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 聚类分析
1. 聚类分析
Cluster History表示聚类的具体过程,NCL表示当前系统 存在类的总个数,Clusters Joined表示当前加入的编号,例如 NCL等于20时,是类1,2聚为一类,FREQ表示新类的元素个 数。SPRSQ表示类与类间规格化最短距离,RSQ表示R2统计量, ERSQ表示半偏R2统计量,CCC统计量值。PSF为伪F统计量, PST2为伪t2统计量。Tie表示“节”,是指当前类间最小距离不 止一个的时候,此时可以任意选择一对最短距离进行聚类,在 计算其他类与新类的距离。从CCC统计量的结果可以看出,最 大值对应的类数为4。从四类合并为三类时,伪t2统计量显著的 增加,伪F统计量下降显著,综合各方面的结果,因此分4类最 为合适。
3 主成分分析
每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变 量的数据;各个学校的研究、教学等各种变量的数 据等等。 这些数据的共同特点是变量很多,在如此多的 变量之中,有很多是相关的。人们希望能够找出它 们的少数“代表”来对它们进行描述。 在引进主成分分析之前,先看下面的例子。
1. 聚类分析
动态聚类图
1. 聚类分析
综合以上分析,可以得到结果,将工厂分为4类,
分别为
第1类:f1,f2,f3,f4,f5,f6;
第2类:f7,f8,f9,f10
第3类:f11,f12,f13,f14,f15;
第4类:f16,f17,f18,f19,f20,f21。
2 判别分析
Bayes判别法
Bayes判别法的基本思想:总是假设对所研 究的对象已有一定的认识,计算新给样品属于 各总体的条件概率 P(Gi x0 ), (i 1,...k ),比较这个 概率的大小,然后将新样品判归为来自概率最 大的总体。
2 判别分析
Gi 具有概率密度函 设有总体 Gi ( i 1,2,, k ) , 数 f i ( x ) 。并且根据以往的统计分析,知道 Gi 出现 的概率为 qi 。即当样本 x0 发生时,求他属于某类的 概率。由贝叶斯公式计算后验概率,有: qi f i ( x0 ) P (Gi | x0 ) q j f j ( x0 )
多元统计分析简介
1.聚类分析 2.判别分析 3.主成分分析 4.典型相关分析
1. 聚类分析
聚类分析又称群分析,它是研究分类问题的一 种多元统计方法。所谓类,通俗地说,就是指相似 元素的集合。那么要将相似元素聚为一类,通常选 取元素的许多共同指标,然后通过分析元素的指标 值来分辨元素间的差距,从而达到分类的目的。 聚类分析可以分为:Q型(样品分类)分类、 R型(指标分类)分类。这里介绍的是Q型(样 品分类)分类。
1. 聚类分析
聚类分析前的预处理步骤: 1)确定聚类类型:对样品聚类称Q型聚类; 对变量聚类称R型聚类。 2)数据预处理 原因:实际应用所使用的样本资料中,由于不同 的变量具有不同的计量单位(或量纲),并且具 有不同的数量级,为了使具有不同计量单位和数 量级的数据能够放在一起进行比较分析,通常都 要对数据进行变换处理。 常用方法有:中心化变换;规格化变换(极 差正规化);标准化变换;对数变换等
2 12 1 22 2 p2 p
v2 b12 y1 b22 y2 bq 2 yq
如此下去,直至两组变量的Fra Baidu bibliotek关性被提取完为止。
对应一些例子
1. 聚类分析
例:从21个工厂中抽出同类产品,每个产品测两个指 标,欲将各厂的质量情况进行分类。
工厂指标观测值
工厂 指标1 指标2 1 0 6 2 0 5 3 2 5 4 2 3 5 4 4 6 4 3 7 5 1 8 6 2 9 6 1 10 7 0 11 -4 3
2.计算类内协方差矩阵S及其逆矩阵S-1 ;
3.计算Bayes判别函数中,各个变量的系数及常数项并 写出判别函数; 4.计算类内协方差矩阵W及总各协方差矩阵T作多个变 量的全体判别效果的检验; 5.各个变量的判别能力的检验; 6.判别新样本应属于的类别。
2 判别分析
逐步判别法
在判别问题中,当判别变量个数较多时,如果 不加选择地一概采用来建立判别函数,不仅计算量 大,还由于变量之间的相关性,可能使求解逆矩阵 的计算精度下降,建立的判别函数不稳定。因此适 当地筛选变量的问题就成为一个很重要的事情。凡 具有筛选变量能力的判别分析方法就统称为逐步判 别法。
1. 聚类分析
进行聚类分析时,由于对类与类之间的距离的 定义和理解不同,并类的过程中又会产生不同的聚
类方法。常用的系统聚类方法有8种:
最短距离法; 最长距离法;
中间距离法;重心法;
类平均法;可变类平均法;
可变法;离差平方和法。
2 判别分析
判别分析方法最初应用于考古学, 例如要根据挖 掘出来的人头盖骨的各种指标来判别其性别年龄等. 近年来, 在生物学分类, 医疗诊断, 地质找矿, 石油钻 探, 天气预报等许多领域, 判别分析方法已经成为一种 有效的统计推断方法。 判别分析是一种在一些已知研究对象用某种方法 已经分成若干类的情况下,确定新的样品的观测数据 属于哪一类的统计分析方法。
1. 聚类分析
3) 研究样品之间的关系。通常有两种方法: 相似系数。性质相近的相似系数的绝对值越接近 于1,彼此不相关的相似系数的绝对值越接近于0。 常用相似系数有:夹角余弦;相关系数;指数相 似系数;非参数方法灯 计算距离。将样品看作P维空间的一点,通过计算 不同样品的距离,距离越接近的点归为一类,距离 远的点归为不同类。 常用距离有:明科夫斯基距离;欧氏距离;绝对值 距离;切比雪夫距离;兰氏距离;马氏距离。 4)计算距离矩阵或相似性系数矩阵D。
典型相关分析基本思想
通常情况下,为了研究两组变量
( x1 , x2 ,, x p ) ( y1 , y2 ,, yq )
的相关关系,可以用最原始的方法,分别计算两组变量之间 的全部相关系数,一共有 pq 个简单相关系数,这样又烦琐 又不能抓住问题的本质。如果分别找出两组变量的各自的某 个线性组合,讨论线性组合之间的相关关系,则更简捷。
3 主成分分析
假定你是一个公司的财务经理,掌握了公司的 所有数据,比如固定资产、流动资金、每一笔借贷 的数额和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分工和教育 程度等等。 如果让你向上面介绍公司状况,你能够把这些 指标和数字都原封不动地摆出去吗? 当然不能。 你必须要把各个方面作出高度概括,用一两个 指标简单明了地把情况说清楚。
3 主成分分析
选择越少的主成分,降维就越好。什么是 标准呢?那就是这些被选的主成分所代表的主 轴的长度之和占了主轴长度总和的大部分。有 些文献建议,所选的主轴总长度占所有主轴长 度之和的大约 80%即可,其实,这只是一个大 体的说法;具体选几个,要看实际情况而定。
3 主成分分析
主成分分析是一种通过降维技术把多个 变量化为少数几个主成分(即综合变量)的统 计分析方法。 一般来说,我们希望这些主成分能够反 映原始变量的绝大部分信息(它们通常表示为 原始变量的某种线性组合),并具有最大的方 差。
4 典型相关分析
首先分别在每组变量中找出第一对线性组合, 使其具有最大相关性,
u1 a11 x1 a21 x2 a p1 x p v1 b11 y1 b21 y2 bq1 yq
然后再在每组变量中再找出第二对线性组合,使其分 别与本组内的第一线性组合不相关,第二对本身具有 次大的相关性,即u2和v2与u1和v1相互独立,但u2和v2 相关, u a x a x a x
2 判别分析
逐步判别法其基本思路类似于逐步回归分析,按 照变量是否重要逐步引入变量,每引入一个“最重要” 的变量进入判别式,同时要考虑较早引入的变量是否 由于其后的新变量的引入使之丧失了重要性变得不再 显著了(例如其作用被后引入地某几个变量的组合所 代替),应及时从判别式中把它剔除,直到判别式中 没有不重要的变量需要剔除,剩下来的变量也没有重 要的变量可引入判别式时,逐步筛选结束。也就是说 每步引入或剔除变量,都作相应的统计检验,使最后 的判别函数仅保留“重要”的变量。
1. 聚类分析
ccc表示要计算半偏R2,R2和ccc立方聚类标准 统计量,这三个统计量和下面的伪F和伪t2统计量, 主要用于检验聚类的效果。当把数据从G+1类合并 为G类时,半偏R2统计量说明了本次合并信息的损 失程度,统计量大表明损失程度大。 R2统计量反映 类内离差平方和的大小,统计量大表明类内离差平 方和小。 ccc统计量的值大说明聚类的效果好。 Pseudo说明要计算伪F和伪t2统计量。一般认为, 伪F统计量出现峰值时的所对应的分类是较佳的分类 选择。当把数据从G+1类合并为G类时,伪t2统计量 的值大,说明不应该合并这两类。
3 主成分分析
100个学生的数学、物理、化学、语文、历史、英语 的成绩如下表(部分)。
3 主成分分析
目前的问题是,能不能把这个数据的6个变量 用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢? 这一类数据所涉及的问题可以推广到对企业,对学 校进行分析、排序、判别和分类等问题。
判别规则
P (Gh | x0 ) max P (Gi | x0 )
1 i k
则 x0判给 Gh。
2 判别分析
Bayes判别法的一般步骤 : 1.计算各类中变量的均值 x j 及均值向量 x h ( h 1,2,..k ) , 各变量的总均值 x j ( j 1,2.. p)及均值向量 x;
工厂
指标1 指标2
12
-2 2
13
-3 2
14
-3 0
15
-5 2
16
1 1
17
0 -1
18
0 -2
19
-1 -1
20
-1 -3
21
-3 -5
1. 聚类分析
data ex;input x1 x2 factory$@@; cards; /*数据省略*/ ; proc cluster data=ex method=ward ccc pseudo outtree=tree; id factory; run; proc tree data=tree horizontal; id factory; run;
1. 聚类分析
聚类分析的一般步骤(Q-型分类) 1) 每个样本独自成类,Gi { X i } i 1,2,..n
2) 由距离矩阵或相似性系数矩阵D,找到当前
最小的Dij, 并将类Gi、Gj合为一类得到一个新类
Gr={Gi、Gj}
3) 从新计算类间的距离,得到新的矩阵D。
4) 重复第2步直到全部合为一类。
2 判别分析
逐步判别法的步骤:
1.计算各总体中各变量的均值和总均值以及似然统 计量,规定引入变量和剔除变量的临界值F进、F出。 2.逐步计算,计算全部变量的判别能力,在已入选 变量中考虑剔除可能存在的最不显著变量。在未选 入变量中选出最大判别能力的变量,对变量作F检验 通过检验则接受,否则剔除变量。直到能剔除又不 能增加新变量,逐步计算结束。 3.建立判别式,使用第2步中选入的变量,用Bayes 判别法建立判别式。 4.对待判样本进行判别分类。
4 典型相关分析
现实生活中两组变量间的相关关系的问题很多, 例如家庭的特征(如户主的年龄、家庭的年收入、户 主的受教育程度等)与消费模式(如每年去餐馆就餐 的频率、每年外出看电影的频率等)等等。为此, 1936年由Hulling提出了典型相关分析,揭示了两组 多元随机变量之间的关系。
4 典型相关分析
2 判别分析
为了能识别待判断的对象x = (x1, x2,…, xm)T是属 于已知类A1, A2,…, Ar中的哪一类? 事先必须要有一个一般规则, 一旦知道了x的值, 便能根据这个规则立即作出判断, 称这样的一个规则 为判别规则(用于衡量待判对象与各已知类别接近程 度的方法准则)。 判别规则往往通过的某个函数来表达, 我们把它 称为判别函数, 记作W(i; x). 常用的方法有:距离判别法、Fisher判别法、 贝叶斯判别法、逐步判别法。