实验报告10 距离判别
距离判别_
第二节距离判别距离判别本节内容距离判别的R 实现3两个总体的距离判别问题2距离最小判别准则1距离最小判别准则距离判别的基本思想:样品和哪个总体距离最近,就判断它属于哪个总体。
距离判别也称为直观判别法如何定义观测到一个总体的距离?问题A设p 维欧式空间中的两点12(,,,)'= p X X X X 12(,,,)'= p Y Y Y Y 则欧式距离的定义为22211(,)()()=-++- p p d X Y X Y X Y用欧式距离衡量点到总体的距离会出现一定偏差。
例如,量纲的变化就有可能影响欧式距离的计算结果马氏距离在企业评估中,根据企业的生产经营情况把企业分为优秀企业和一般企业两个类别。
关于企业生产经营状况的指标有3个:资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵见下页表格。
现有两个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?“优秀”的企业,其经营状况和协方差矩阵如下:变量优秀企业的均值向量协方差矩阵资金利润率13.568.3940.2421.41劳动生产率40.740.2454.5811.67产品净值率10.721.4111.677.90现在有一个新的企业,其三个指标的值分别为(7.8,39.1,9.6),计算该企业到“优秀”企业这一总体的马氏距离7.813.539.140.79.610.7X μ-⎡⎤⎢⎥-=-⎢⎥⎢⎥-⎣⎦[]1(,)(μ)(μ)68.3940.2421.41 5.75.7 1.6 1.140.2454.5811.67 1.63414.81221.4111.677.9 1.1D X G X X -'=-∑--⎡⎤⎡⎤⎢⎥⎢⎥=----=⎢⎥⎢⎥⎢⎥⎢⎥-⎣⎦⎣⎦这个判别规则的等价描述为:求新样品X 到G 1的距离与到G 2的距离之差,如果其值为正,X 属于G 2;否则X 属于G 1。
Lab10聚类分析1距离
Lab10:聚类分析1.内容:练习判别与分类方法的使用2.目的:理解层次聚类,K-means以及谱聚类方法的原理,熟练掌握其使用3.作业提交:完成后面的作业,现场演示给助教并解释结果.1距离所有的聚类方法都是基于距离的,因此距离的选择会直接影响聚类的结果.library(HSAUR)data(pottery)?pottery##如果数据需要中心化和标准化,则#scale(t(y));yscaled<-t(scale(t(y)));apply(yscaled,1,sd)#计算距离d<-dist(y,method="euclidean")#矩阵y的行为观测,列为变量#c<-cor(t(y),method="spearman");d<-as.dist(1-c);#欲得到基于相关的距离,首先需要计算相关系数,然后再将其转为距离.#注意cor函数计算列之间的相关系数,因此这里需要转置#使用层次聚类方法hr<-hclust(d,method="complete",members=NULL)plot(hr,hang=-1)练习1.使用不同的距离方法,使用Rand index研究层次聚类方法在不同距离以及linkage下的结果差异.2聚类方法聚类是基于相似度原理,因此不同的聚类方法的结果可能会有差异.其中,确定聚类数目是必须的且比较困难的问题.#使用层次聚类方法hr<-hclust(d,method="complete",members=NULL)hc<-cutree(hr,k=3)plot(hr)rect.hclust(hr,k=3)clusplot(y,hc,color=TRUE,shade=TRUE,labels=2,lines=0)#使用K-meanshk<-kmeans(d,centers=3,iter.max=100,nstart=10)library(cluster)clusplot(y,hk$cluster,color=TRUE,shade=TRUE,labels=2,lines=0)#使用k-medoidshp<-pam(d,k=3,diss=T)clusplot(y,hp$clustering,color=TRUE,shade=TRUE,labels=2,lines=0)#使用谱聚类方法library(kernlab)hs<-specc(as.matrix(y),centers=3)clusplot(y,hs,color=TRUE,shade=TRUE,labels=2,lines=0)#对比这些结果,会得到什么?练习2.使用silihoutte,CH,Gap统计量等方法选择合适的聚类数目.前面我们都是对样本点进行聚类,下面考察对变量进行聚类.练习3.使用基于相关系数的聚类,对pottery数据的9个变量进行聚类分析(选择聚类方法,选择聚类数目,评价聚类效果).。
谁远谁近实验报告(一)
谁远谁近实验报告(一)实验报告:谁远谁近实验报告1. 引言本实验旨在通过测量不同距离下物体的清晰度,来探究人眼对于距离的感知和物体远近的判断能力。
通过此实验,我们可以更深入地了解人眼的视觉系统以及距离感知的机制。
2. 实验设计实验材料•一台相机•一组不同距离的标定板•一组实验参与者实验流程1.设置实验环境:确保光线充足,背景干净,避免干扰因素。
2.准备标定板:将一组不同距离的标定板放置在相机前方,距离由近及远排列。
3.拍摄照片:使用相机对每个标定板进行拍摄,确保照片清晰。
4.记录数据:对每个照片,记录下相机和标定板之间的实际距离。
5.实验参与者试验:请一组实验参与者观察这些照片,并按照远近进行排序。
6.统计数据:记录下每个实验参与者的排序结果。
3. 实验结果分析数据统计根据实验参与者的排序结果,计算不同标定板与相机的实际距离和被排序为最远和最近的次数。
以及实际距离与排序结果的相关性。
结果讨论与解释根据实验结果的统计数据,我们可以得出以下结论: - 人眼对于较近的物体具有更好的清晰度感知能力。
- 人眼判断物体远近的能力具有一定误差,可能受到主观因素的影响。
这些结论可以进一步用于解释人眼视觉系统中的像差、景深和角度等概念,并对距离感知的生物学机制进行深入研究。
4. 结论通过本次实验,我们在尝试了解人眼对于物体远近的感知能力过程中,发现了人眼对较近物体具有更好的清晰度感知能力,同时也发现人眼对物体远近的判断存在一定的误差。
这一实验为我们深入研究人眼视觉系统提供了一个有效的方法,并对距离感知的生物学机制提供了一定的参考。
5. 参考文献[参考文献1] [参考文献2] … [参考文献n]。
距离测量实验报告
距离测量实验报告
实验目的:通过不同方法测量两点之间的距离,比较不同方法的测量精度和准确性。
实验器材:测距仪、直尺、量角器、计时器。
实验原理:距离测量可以使用不同的方法进行,如直接测量、三角测量、时间测量等。
直接测量是通过直尺等工具直接测量两点之间的距离;三角测量是通过测量三角形的边长和角度来计算出两点之间的距离;时间测量是通过测量信号从发射到接收所需的时间来计算出两点之间的距离。
实验步骤:
1. 选择两个非常接近的点作为测量的目标点,并用直尺测量它们之间的距离,记录下来。
2. 使用测距仪进行测量,将仪器的起点对准第一个目标点,按下测量按钮,等待测距结果,并记录下来。
3. 选择一个与第一个目标点相连的第三个点,使用量角器测量这个三角形的内角,记录下来,并测量这个三角形的边长,记录下来。
4. 根据三角形的内角和边长,使用三角函数计算出第一个目标点与第二个目标点之间的距离。
5. 使用计时器测量从信号发射到接收所需的时间,并根据信号的速度计算出第一个目标点与第二个目标点之间的距离。
实验结果:直尺测得的距离为10cm,测距仪测得的距离为9.8cm,三角测量计算出的距离为9.7cm,时间测量计算出的
距离为9.9cm。
实验讨论:从实验结果可以看出,直尺测量的结果比较接近实际值,但测量精度较低;测距仪测量的结果与实际值相差较小,但仍有一定误差;三角测量和时间测量都可以得到较为准确的结果,但需要测量额外的参数。
实验结论:根据实验结果,不同的距离测量方法有不同的优缺点,可以根据具体实际情况选择合适的方法进行测量。
在实际应用中,可以综合考虑不同方法的精度、准确性和操作便捷性来选择适合的测量方法。
距离判别法xin
距离判别法距离判别的思想是由训练样本得出每个分类的重心(中心)坐标,然后对新样品求出它们离各个类别重心的距离远近,从而归入离的最近的分类,,最常用的距离是马氏距离.距离判别的特点是直观、简单,适合于对自变量均为连续变量的情况进行分类,且它对变量的分布类型无严格要求,特别是并不严格要求总体协方差阵相等。
判别分析的模型可以概括为:假设有个k个总体G1,G2~Gk,并且都是p维总体,对应的数据指标为: X=(X1,X2,~~Xp)T T在各个总体下具有不同的分布特征。
现对某一新的样品数据x=(x1,x2,~~xp)T,要根据各总体的特征按一定准则判断该样品应属于哪一个总体。
定义x与总体G的马氏平方距离:纸上1两个总体的判别准则:设是G1,G2两个不同的p维已知总体,G1的均值向量是μ1,协方差矩阵为Σ1;G2的均值向量是μ2,协方差矩阵为Σ2;设x=(x1,x2,~~xp)T是一个待判样品,距离判别准则为:纸上2即当x到1G的马氏距离不超过到G2的马氏距离时,判定x来自G1;反之,判定x来自。
2GBayes判别法基本思想:设有k个总体G1,G2,~~Gk,它们的先验概论分别为q1,q2,~~qk(可以利用经验给出,也可以通过估计得到)。
各总体的密度函数分别为:f1(x),f2(x),~~fk(x),在观测到一个样品x的情况下,可以用Bayes公式计算它来自第个总体的后验概率:g纸上3并且在纸上4时,则判定X来自第总体。
Bayes判别的基本方法设每一个总体Gi的分布密度为fi(x),i=1,2,~k,来自总体G的样本X被错判为来自总体Gj(i,j=1,2,~~k)时所造成的损失记为C(j!i),并且C(i!j)=0. 那么,对于判别规则R=(R1,R2,~~,Rk)产生的误判概率记为P(j!i,R),有纸上5如果已知样本X来自总体i G的先验概率为qi, i=1,2,,k,则在规则R下,误判的总平均损失为:纸上6R1,R2,~~,Rk确实能够使总平均损失达到极小,他就是Bayes判别的解。
距离判别分析
现测得6只 蠓虫的触长,翅长数据 例1.现测得 只Apf和9只Af蠓虫的触长 翅长数据 现测得 和 只 蠓虫的触长 Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), : (1.26,2.00), (1.28,2.00), (1.30,1.96) Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), : (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08) 若两类蠓虫协方差矩阵相等, 若两类蠓虫协方差矩阵相等,试判别以下 的三个蠓虫属于哪一类? 的三个蠓虫属于哪一类? (1.24,1.8),(1.28,1.84),( ,2.04) , ,(1.4, ,( )
如何解读计算主成分的数学表达式 我们设计算第一主成分的公式为: 我们设计算第一主成分的公式为:
Y1 = a 11 x 1 + a 12 x 2 + a 13 x 3 + a 14 x 4
的绝对值比较大, 若a11, a12 ,a14的绝对值比较大,表明第一主成 分主要提取了x1, x2 ,x4三个原始指标的信息; 三个原始指标的信息; 分主要提取了 如果此时再计算第二主成分, 如果此时再计算第二主成分,你会发现第二主 成分x 系数的绝对值就比x1, 系数的绝对 成分 3系数的绝对值就比 x2 ,x4系数的绝对 值要大, 值要大,也就是说第二主成分弥补了第一主成 分的不足. 分的不足
第四章 判别分析 判别分析利用已知类别的样本为标准, 判别分析利用已知类别的样本为标准,对未 知样本进行判类的一种统计方法。 知样本进行判类的一种统计方法。它产生于本世 30年代 近年来,在自然科学、 年代。 纪30年代。近年来,在自然科学、社会学及经济 管理学科中都有广泛的应用。 管理学科中都有广泛的应用 。 判别分析的特点 是根据已掌握的、 是根据已掌握的、历史上每个类别的若干样本的 数据信息,总结出客观事物分类的规律性, 数据信息,总结出客观事物分类的规律性,建立 判别公式和判别准则。然后, 判别公式和判别准则。然后,当遇到新的样本点 只要根据总结出来的判别公式和判别准则, 时,只要根据总结出来的判别公式和判别准则, 就能判别该样本点所属的类别。 就能判别该样本点所属的类别。
距离判别分析
若Q0< ,则接受H0,否则拒绝H0
对于例1,应用检验程序如下: 0.05
n1=6;n2=9;p=2;s=(5*s1+8*s2)/13; Q01=(n1-1)*(log(det(s))-log(det(s1))-p+trace(inv(s)*s1)), Q02=(n2-1)*(log(det(s))-log(det(s2))-p+trace(inv(s)*s2)),
若两总体协方差矩阵不等,试判别以下的 三个蠓虫属于哪一类?
(1.24,1.8),(1.28,1.84),(1.4,2.04)
解: Apf=[1.14,1.78; 1.18,1.96; 1.20,1.86; 1.26,2.00; 1.28,2.00; 1.30,1.96];
Af=[1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;
靠性。通常,我们利用回代误判率和交叉误判 率进行误差的估计。若属于G1的样品被误判为 属于G2的个数为N1个,属于G2的样品被误判 为属于G1的个数为N2个,两类总体的样品总数 为n,则误判率为: p N1 N2
n
(1)回代误判率 设G1,G2为两个总体,X1,X2,…,Xm和
Y1,Y2,…,Yn是分别来自G1,G2的训练样本, 以全体训练样本作为m+n个新样品,逐个代 入已建立的判别准则中判别其归属,这个过 程称为回判。若属于G1的样品被误判为属于 G2的个数为N1个,属于G2的样品被误判为属 于G1的个数为N2个,则误判率估计为:
若两类蠓虫协方差矩阵相等,试判别以下 的三个蠓虫属于哪一类?
(1.24,1.8),(1.28,1.84),(1.4,2.04)
判别分析-距离判别
= 2y′Σ −1 ( µ1 − µ 2 ) − ( µ1 + µ 2 )′Σ −1 ( µ1 − µ 2 )
( µ1 + µ 2 ) −1 = 2[y − ]′Σ ( µ1 − µ 2 ) 2 µ1 + µ 2 α = Σ −1 ( µ1 − µ2 ) = (a1 , a2 ,L, a p )′ 令µ = 2
利用这些数据找到一种判别函数,使得这一函数 具有某种最优性质,能把属于不同类别的样本点 尽可能的区别开来,并对同样测得 p项指标的新 样本进行归类.
关键:确定判别函数
判别准则: 判别准则: 用于衡量新样品与各已知组别接近程度的思路原则。 常用的有,距离准则、Fisher准则、贝叶斯准则。
判别函数: 判别函数: 基于一定的判别准则计算出的用于衡量新样品与各 已知组别接近程度的描述指标。
µ1 + µ 2
判别函数的常数项( 2 ′ ) Σ −1 ( µ1 − µ 2 )
(6)生成判别函数,将检验样本代入,判类。
三、多总体的距离判别法
设有 k 个 m元总体 G1,L, Gk ,分别有均值向量 µi和协方 差阵 Σi,对任给的 m元样品 X,判断它来自哪个总体 计算 X 到 k个总体的马氏距离,比较后,把 X 判归给 距离最小的那个总体,若
Y = (Y1 , Y2 ,..., Y p )',通常我们所说的两点间的距
离是指欧氏距离:
d 2 ( X , Y ) = ( X 1 − Y1 ) 2 + ... + ( X p − Yp ) 2
缺陷: 缺陷: 1、量纲的改变 2、数据的分散程度
1、设有量度重量和长度的两个变量 X和Y ,以单位 分别为kg和cm得到样本 A(0,5), B(10,0), C (1,0), D(0,10), 按照欧氏距离计算,有:
距离判别分析_zks
T 2 T 1
1
T
1
d 2 ( x , G 2 ) d 2 ( x , G1 ) 2 x T 1 ( 1 2 ) ( 1 2 )T 1 ( 1 2 ) 2[ x ( 1 2 )
T 1
1 2
( 1 2 )T 1 ( 1 2 )] 1 2 ( 1 2 )) T 1 ( 1 2 )]
属的类别。
1
§1 距离判别
(一)马氏距离
距离判别的最直观的想法是计算样 品到第i类总体的平均数的距离,哪个 距离最小就将它判归哪个总体,所以, 我们首先考虑的是是否能够构造一个恰 当的距离函数,通过样本与某类别之间 距离的大小,判别其所属类别。
2
设 x ( x1 , x 2 ,, x p )和 y ( y1 , y 2 ,, y p )是从期望
= x - μ Σ Σ
-
1 2
-
1 2
x - μ
Σ -1 x - μ = x - μ
6
xcov=[1 4; 4 100]; [v d ]=eig(xcov); dn=[ 1.19239706170638 0; 0 0.00998389067458]; %dn=d^-1 v*dn*v' inv(xcov) 输出结果显示v*dn*v‘=inv(xcov)
2[( x T
1 2
ห้องสมุดไป่ตู้
( 1 2 )T ) 1 ( 1 2 )] 2[( x
1
令
1 2
( 1 2 ) ( x ( 1 2 ))T 1 ( 1 2 ) ( x )T 1 ( 1 2 )
心理距离的实验报告
一、实验目的本研究旨在探讨心理距离对人际交往的影响,通过实验验证心理距离与人际吸引、信任、沟通等因素之间的关系。
二、实验方法1. 实验对象:选取60名大学生作为实验对象,其中男生30名,女生30名,年龄在18-22岁之间。
2. 实验材料:设计一份心理距离量表,包括10个题目,每个题目分为五个等级,分别代表心理距离的远近。
量表内容涉及人际交往、信任、沟通等方面。
3. 实验程序:(1)将被试随机分为三组,每组20人。
(2)第一组被试进行心理距离量表测试,要求被试根据自己的实际情况回答每个题目。
(3)第二组被试在第一组的基础上,进行心理距离干预实验。
实验过程中,要求被试与陌生人进行一定程度的互动,如问候、交谈等,以缩短心理距离。
(4)第三组被试作为对照组,不进行任何干预。
(5)三组被试均完成心理距离量表测试,记录数据。
4. 数据分析:采用SPSS软件对数据进行描述性统计、t检验和方差分析。
三、实验结果1. 描述性统计:三组被试在心理距离量表测试中的平均得分分别为:第一组(干预组)5.2分,第二组(对照组)4.8分,第三组(实验组)4.0分。
2. t检验:第一组与第二组、第三组与第二组在心理距离量表测试中的得分存在显著差异(p<0.05)。
3. 方差分析:三组被试在心理距离量表测试中的得分存在显著差异(F=4.23,p<0.05)。
四、讨论1. 实验结果表明,心理距离对人际交往具有显著影响。
心理距离较近的被试在人际吸引、信任、沟通等方面表现较好。
2. 心理距离干预实验表明,通过一定程度的互动,可以缩短心理距离,提高人际交往质量。
3. 本研究的结果与已有研究相一致,验证了心理距离在人际交往中的重要性。
五、结论1. 心理距离对人际交往具有显著影响,心理距离较近的人更容易产生人际吸引、信任和良好的沟通。
2. 通过心理距离干预实验,可以有效地缩短心理距离,提高人际交往质量。
3. 在实际生活中,应重视心理距离的作用,通过适当的互动和沟通,建立良好的人际关系。
距离判别法及实例
距离判别法及实例基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。
距离判别法,对各类(或总体)的分布,并无特定的要求。
1 两个总体的距离判别法设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。
今任取一个样品,实测指标值为),,(1'=p x x X Λ,问X 应判归为哪一类?首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则判别归类,则可写成:⎪⎩⎪⎨⎧=>∈<∈),(),( ,),(),(,),(),(,21212211G X D G X D G X D G X D G X G X D G X D G X 当待判当当 G 1总体: G 2总体:记2,1,),,()()(1)(='=i x x Xi p i i Λ如果距离定义采用欧氏距离,则可计算出1(,)D X G ==2(,)D X G ==然后比较),(1G X D 和),(2G X D 大小,按距离最近准则判别归类。
由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。
设)1(μ、)2(μ,)1(∑、)2(∑分别为G 1、G 2的均值向量和协方差矩阵。
如果距离定义采用马氏距离即2,1)()()(),()(1)()(2=-∑'-=-i X X G X D i i i i μμ这时判别准则可分以下两种情况给出: (1)当∑=∑=∑)2()1(时考察),(22G X D 及),(12G X D 的差,就有:)2(1)2()2(1112222),(),(μμμ-'--∑+∑'-∑'=-X X X X G X D G X D]2[)1(1)1()1(11μμμ-'--∑+∑'-∑'-X X X)()()(2)2()1(1)2()1()2()1(1μμμμμμ-∑'+--∑'=--X)()(212)2()1(1)2()1(μμμμ-∑'⎥⎦⎤⎢⎣⎡+-=-X令)(21)2()1(μμμ+=)()()()2()1(1μμμ-∑'-=-X X W则判别准则可写成:⎪⎩⎪⎨⎧==<<∈>>∈),(),(D 0)( ,),(),(D 0)(,),(),(D 0)(,12221222212221G X D G X X W G X D G X X W G X G X D G X X W G X 即当待判即当即当 当)2()1(,,μμ∑已知时,令),,()(1)2()1(1'∆-∑=-p a a a Λμμ则⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡--=-'='-=p p p x x a a X a a X X W μμμμM Λ ),,()()()(111)()(111p p p x a x a μμ-++-=Λ显然,W (X )是p x x ,,1Λ的线性函数,称W (X )为线性判别函数,a 为判别系数。
距离判别法及其应用
距离判别法及其应用一、什么是距离判别(一)定义距离判别分析方法是判别样品所属类别的一应用性很强的多因素决策方法,根据已掌握的、历史上每个类别的若干样本数据信息,总结出客观事物分类的规律性,建立判别准则,当遇到新的样本点,只需根据总结得出的判别公式和判别准则,就能判别该样本点所属的类别。
距离判别分析的基本思想是:样本和哪个总体的距离最近,就判它属于哪个总体。
(二)作用判别个体所属类型。
例如在经济学中,可根据各国的人均国人民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的怕属类型医学上根据口才的体温、白血球数目以及其他病理指标来判断患者所患何病等。
二、距离判别分析原理(一)欧氏距离欧氏距离(Euclidean distance )是一个通常采用的距离定义,最多的应用是对距离的测度。
大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。
从数学的角度来讲,它是在m 维空间中两个点之间的真实距离。
在二维空间中其公式为:221221)()(y y x x d -+-=推广到n 维空间其公式为:21)(1i n i i y x d -=∑=(二)马氏距离在判别分析中,考虑到欧氏距离没有考虑总体分布的分散性信息,印度统计学家马哈诺必斯(Mahalanobis )于1936年提出了马氏距离的概念。
设总体T m X X X G },...,,{21=为m 维总体(考察m 个指标),样本T m i x x x X },...,,{21=。
令μ=E(i X )(i=1,2, …,m),则总体均值向量为T m },,{21μμμμ⋅⋅⋅=。
总体G 的协方差矩阵为:]))([()(T G G E G COV μμ--==∑。
设X ,Y 是从总体G 中抽取的两个样本,则X 与Y 之间的平方马氏距离为:)()(),(12Y X Y X Y X d T -∑-=-样本X 与总体G 的马氏距离的平方定义为:)()(),(12μμ-∑-=-X X G X d T1.两总体距离判别。
模式识别实验报告
二、实验步骤 前提条件: 只考虑第三种情况:如果 di(x) >dj(x) 任意 j≠ i ,则判 x∈ωi 。
○1 、赋初值,分别给 c 个权矢量 wi(1)(i=1,2,…c)赋任意的初
值,选择正常数ρ ,置步数 k=1;
○2 、输入符号未规范化的增广训练模式 xk, xk∈{x1, x2… xN} ,
二、实验步骤
○1 、给出 n 个混合样本,令 I=1,表示迭代运算次数,选取 c
个初始聚合中心 ,j=1,2,…,c;
○2 、 计 算 每 个 样 本 与 聚 合 中 心 的 距 离
,
。
若
, ,则
。
○3 、 计 算 c 个 新 的 聚 合 中 心 :
,
。
○4 、判断:若
,
,则 I=I+1,返回
第二步 b 处,否则结束。 三、程序设计
聚类没有影响。但当 C=2 时,该类别属于正确分类。 而类别数目大于 2 时,初始聚合中心对聚类的影响非常大,仿真
结果多样化,不能作为分类标准。 2、考虑类别数目对聚类的影响: 当类别数目变化时,结果也随之出现变化。 3、总结 综上可知,只有预先分析过样本,确定合适的类别数目,才能对
样本进行正确分类,而初始聚合中心对其没有影响。
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
初始聚合中心为(0,0),(2,2),(5,5),(7,7),(9,9)
K-均 值 聚 类 算 法 : 类 别 数 目 c=5 9
8
7
6
5
4
距离判别
( )
贾博婷
应用多元统计分析
♠ Σ1
Σ2
判别准则1 ⎧ ⎪ ⎪ 判 X ∈ G1 , 如果 D 2 (X, G1 ) < D 2 (X, G2 ) ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ 判 X ∈ G2 , 如果 D 2 (X, G1 ) > D 2 (X, G2 ) ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 待判, 如果 D 2 (X, G1 ) = D 2 (X, G2 )
⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ = 125
贾博婷
应用多元统计分析
2. 不受量纲影响.
设有重量(kg )和长度(cm)两个变量X 和Y , 总体的协差阵为 单位矩阵. 设分别以单位 kg 和 cm 得到样品观测
A = (0, 5)′ , B = (10, 0)′ .
2 2 2 欧式距离为 dA ,B (2) = (−10) + 5 = 125 ⎡ ⎤′ ⎡ ⎤⎡ ⎢ ⎥ ⎢ ⎥ ⎢ ⎢ ⎥ ⎢ ⎥ ⎢ − 10 1 0 −10 ⎢ ⎥ ⎢ ⎥ ⎢ 2 ⎢ ⎥ ⎢ ⎥ ⎢ ⎢ ⎥ ⎥ ⎢ 马氏距离为 dA ⎢ ⎥ ⎢ ⎢ ⎥ ⎢ ,B (M ) = ⎣ ⎦ ⎣ ⎦ 5 0 1 ⎣ 5
贾博婷
应用多元统计分析
S1 引 言
♠ 判别分析是用于判断样品所属类别的一种统计方法. ♠ 判别分析问题 已知k 个p 维总体G1 , G2 , · · · , Gk , 其分布特征已知. 对给 定的一个新样品X, 要判断他来自哪个总体. ♠ 例如: 在医学诊断中, 一个病人肺部有阴影, 医生要判断 他患的是肺结核、肺部良性肿瘤还是肺癌?
贾博婷
应用多元统计分析
♠ 分类问题可以分为两种:
事先不知道研究的问题应分为几类, 目的是需要通过对 观测数据所进行的分析处理, 确定分类数目, 建立一种分 类方法, 并按接近程度对观测对象给出合理的分类. 这 是聚类分析要解决的问题. 对当前所研究的问题已知它的类别数目及各类的特征, 目的是要将另一些未知类别的个体正确地归属于其中的 某一类. 这是判别分析要解决的问题.
实验报告10 距离判别.
实验十 距离判别一、实验目的和要求掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题.实验要求:编写程序,结果分析.实验内容:要求:1题必做,2,3,4题可选1-2题1.写出几种距离公式,两总体距离判别准则;欧氏距离 ∑=-=p i i i y x d 12)()(y x, 明氏距离 m p i m i i y xd 11])([)(∑=-=y x,(1)总体G ,均值向量μ, 协方差矩阵Σ,y x,来自G211)]()[()(y x Σy x y x,--=-T d ——y x,的马氏距离211)]()[()(μx Σμx G x,--=-T d ——x 与G 的马氏距离(2)两个总体21,G G ,均值向量21,μμ,协方差矩阵均为Σ212112121)]()[()(μμΣμμG ,G --=-T d ——总体21,G G 的马氏距离1.距离判别准则21,G G 为两个p 维已知总体,均值向量21,μμ, 协方差矩阵21,ΣΣ,T p x x x ),,,(21 =x 为待判样品,距离判别准则为⎩⎨⎧>∈≤∈)()(,)()(,121221G x,G x,G x G x,G x,G x d d d d 若若2.书上5.3data examp5_1; /* 建立训练样本集 */input group $ x1 x2 x3 x4 x5 x6 x7 x8; /* 输入总体(二维)、数量指标x1 –x8 */cards;G1 8.35 23.53 7.51 8.62 17.42 10.00 1.04 11.21G1 9.25 23.75 6.61 9.19 17.77 10.48 1.72 10.51G1 8.19 30.50 4.72 9.78 16.28 7.60 2.52 10.32G1 7.73 29.20 5.42 9.43 19.29 8.49 2.52 10.00G1 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76G1 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35G1 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81G1 9.09 28.12 7.40 9.62 17.26 11.12 2.49 12.65G1 9.41 28.20 5.77 10.80 16.36 11.56 1.53 12.17G1 8.70 28.12 7.21 10.53 19.45 13.30 1.66 11.96G1 6.93 29.85 4.54 9.49 16.62 10.65 1.88 13.61G1 8.67 36.05 7.31 7.75 16.67 11.68 2.38 12.88G1 9.98 37.69 7.01 8.94 16.15 11.08 0.83 11.67G1 6.77 38.69 6.01 8.82 14.79 11.44 1.74 13.23G1 8.14 37.75 9.61 8.49 13.15 9.76 1.28 11.28G1 7.67 35.71 8.04 8.31 15.13 7.76 1.41 13.25G1 7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29G1 7.18 40.91 7.32 8.94 17.60 12.75 1.14 14.80G1 8.82 33.70 7.59 10.98 18.82 14.73 1.78 10.10G1 6.25 35.02 4.72 6.28 10.03 7.15 1.93 10.39G2 10.60 52.41 7.70 9.98 12.53 11.70 2.31 14.69G2 7.27 52.65 3.84 9.16 13.03 15.26 1.98 14.57G2 13.45 55.85 5.50 7.45 9.55 9.52 2.21 16.30G2 10.85 44.68 7.32 14.51 17.13 12.08 1.26 11.57G2 7.21 45.79 7.66 10.36 16.56 12.86 2.25 11.69G2 7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87G2 7.78 48.44 8.00 20.51 22.12 15.73 1.15 16.61;run;data test5_1; /* 建立检验样本集(变量应和训练样本集一致) */input x1 x2 x3 x4 x5 x6 x7 x8;cards;7.94 39.65 20.97 20.82 22.52 12.41 1.75 7.908.28 64.34 8.00 22.22 20.06 15.12 0.72 22.8912.47 76.39 5.52 11.24 14.52 22.00 5.46 25.50;run;/* 调用判别分析的discrim过程,data=examp5_1训练样本集,testdata=test5_1检验样本集,pool=yes假定各总体的协方差矩阵相等.method=normal在各总体为正态分布的假定下通过利用训练样本估计各总体均值向量和协方差矩阵,listerr仅打印回判中判错的样品信息,crosslisterr对训练样本数据进行交叉确认回判分析.Testlist列出对检验数据集各样品的判别结果,wcov pcov 打印examp5_1 和test5_1集对应的训练样本协方差矩阵估计. */proc discrim data=examp5_1testdata=test5_1 pool=yes method=normal listerr crosslisterr testlist wcov pcov;class group; /* 分类变量group */var x1-x8; /* 参与分析的变量x1 –x8 */priors equal; /* 总体的先验概率相等 */run;样本协方差矩阵:距离及判别函数:得到两总体的马氏平方距离为:),(212G G d =24.6168 线性判别函数为:W(1)=-121.19958+7.00604X1+2.177894X2-0.38996X3-1.81803X4+5.67045X5+0.04597X 6+9.57755X7+1.91570X8;W(2)=-176.33030+8.26957X1+3.06901X2-0.70196X3+0.16259X4+4.58071X5+1.05447X6+13.46524X7+0.90915X8;(5)误判率估计——回代法和交叉确认法:以下为使用线性判别函数的回代法结果:以下为使用线性判别函数的交叉确认法结果:用交叉确认法将属于总体2G 的第17和19号样品误判为属于1G ,其余均回判正确,误判率的回代估计为: 0.0500.(6)待判样品判别结果:G 待判新样品的判别结果为:第1,2,3号样品属于23.为了研究2005年全国各地区及国有控股工业企业的经营状况,数据见表1:2005经济指标:其中:X1—工业增加率(%),X2—总资产贡献率(%),X3—资产负债率(%),X4—流动资产周转次数(次),X5—工业成本费用利用率(%),X6—全员劳动生产率(万元/人.年),X7—产品销售率(%)(1)请用一种聚类分析方法将29个省市分为3种类型(广东、西藏除外);(2)利用距离判别建立判别函数,判定广东、西藏分别属于哪个发展类型?表3 2005经济指标样品地区X1 X2 X3 X4 X5 X6 X7序号1 北京26.91 4.5 31.14 1.88 6.39 17.96 98.992 上海28 11.7 43.6 1.99 8.57 27.57 99.23 天津32.9 13.9 60.19 2.2 10.77 21.27 101.984 河北30.38 10.4 64.01 2.31 5.96 11.28 98.675 山西37.48 9.4 67.82 1.71 6.82 7.93 97.856 内蒙古43.44 9.8 64.32 2.08 7.94 16.34 98.237 辽宁28.76 7.5 59.33 2.15 2.78 14.19 99.868 吉林29.48 8.5 60.57 2.11 3.45 12.29 99.459 江苏24.34 11.3 59.67 2.29 4.89 15.97 99.4110 浙江24.85 13.4 57.41 2.92 5.28 24.62 99.7211 安 徽 34.54 11.2 62.83 2.18 6.15 11.77 98.89 12 福 建 28.87 11.9 56.16 2.38 5.74 15.38 99.49 13 江 西 27.21 9.7 69.38 2.01 4 8.86 99.49 14 山 东 36.59 15.8 60.18 2.55 10.83 18.17 99.06 15 河 南 31.9 10.2 65.62 2.06 5.348.8398.6116 湖 北 33.27 9.2 57.34 1.69 9.05 13.68 99.63 17 湖 南 37.13 12.7 67.23 2.07 4.24 12.71 99.52 18 广 西 31.64 10.8 62.91 2.09 5.88 10.42 99.69 19 海 南 35.44 11.7 54.23 1.97 10.95 14.26 101.3 20 重 庆 25.95 8.2 58.92 1.58 3.71 8.34 99.38 21 四 川 36.29 9.1 64.34 1.56 7.31 11.26 101.24 22 贵 州 36.45 9.7 66.39 1.52 5.77 9.52 99.06 23 陕 西 41.01 15.9 61.88 1.7 18.95 12.28 98.7624 甘 肃 25.76 9.5 59.32 2.3 3.55 9.02 98.96 25 青 海 38.77 12.2 68.56 1.38 22.44 17 97.9 26 宁 夏 33.62 5.6 60.94 1.46 3.37999.3827 黑龙江 50.1 35.4 54.5 2.42 39.49 19.81 97.71 28 云 南 44.76 20.1 47.44 1.5 13.41 22.54 100.13 29 新 疆 45.21 23.9 50.58 3.15 27.1 24.83 99.93 1 广 东 26.51 13 53.21 2.39 6.7 24.34 98.71 2西 藏55.734.725.480.9711.86.3193.684.波士顿房价问题为了了解波士顿地区的住房状况,Harrison 收集了1978年波士顿大区每个调查行政区的506各观察值。
实验报告-判别分析(多元统计)精选全文完整版
可编辑修改精选全文完整版实验报告5判别分析(设计性实验)(Discriminant analysis)实验原理:判别分析是判别样品所属类型的一种统计方法。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数目,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
本实验要求学生应用距离判别准则(即,对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类),对两总体和多总体情形下分别进行判别分析。
实验中需注意协方差矩阵相等时,选取线性判别函数;协方差矩阵不相等时,应选取二次判别函数。
实验题目一:为了检测潜在的血友病A携带者,下表中给出了两组数据:(t11a8)其中x1=log10(AHF activity),x2=log10(AHF antigen)。
下表给出了五个新的观测,试对这些观测判别归类;(t11b8)实验要求:(1)分别检验两组数据是否大致满足二元正态性;(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(6)比较方法(4)和方法(5)的误判率。
实验题目二:某商学研究生院的招生官员利用指标――大学期间平均成绩GPA和研究生管理能力考试GMAT的成绩,将申请者分为三类:接受,不接受,待定。
下表中给出了三类申请者的GPA与GMAT成绩:(t11a6)GPA (x1)GMAT(x2)接受GPA(x1)GMAT(x2)不接受GPA(x1)GMAT(x2)待定2.96 596 1 2.54 446 2 2.86 494 33.14 473 1 2.43 425 2 2.85 496 3 3.22 482 1 2.2 474 2 3.14 419 3 3.29 527 1 2.36 531 2 3.28 371 3 3.69 505 1 2.57 542 2 2.89 447 3 3.46 693 1 2.35 406 2 3.15 313 3 3.03 626 1 2.51 412 2 3.5 402 3 3.19 663 1 2.51 458 2 2.89 485 3 3.63 447 1 2.36 399 2 2.8 444 33.59 588 1 2.36 482 2 3.13 416 33.3 563 1 2.66 420 2 3.01 471 33.4 553 1 2.68 414 2 2.79 490 33.5 572 1 2.48 533 2 2.89 431 33.78 591 1 2.46 509 2 2.91 446 33.44 692 1 2.63 504 2 2.75 546 33.48 528 1 2.44 336 2 2.73 467 33.47 552 1 2.13 408 2 3.12 463 33.35 520 1 2.41 469 2 3.08 440 33.39 543 1 2.55 538 2 3.03 419 33.28 523 1 2.31 505 2 3 509 33.21 530 1 2.41 489 2 3.03 438 33.58 564 1 2.19 411 2 3.05 399 33.33 565 1 2.35 321 2 2.85 483 33.4 431 1 2.6 394 2 3.01 453 33.38 605 1 2.55 528 2 3.03 414 33.26 664 1 2.72 399 2 3.04 446 33.6 609 1 2.85 381 23.37 559 1 2.9 384 23.8 521 13.76 646 13.24 467 1实验要求:(1)对上表中的数据作散点图,不同的类用不同的颜色标识;(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(4)比较方法(2)和方法(3)的误判率;(5)现有一新申请者的GPA为3.21,GMAT成绩为497。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验十 距离判别一、实验目的和要求掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题.实验要求:编写程序,结果分析. 实验内容:要求:1题必做,2,3,4题可选1-2题1.写出几种距离公式,两总体距离判别准则;p 维空间两点T p x x x ),,,(21 =x ,T p y y y ),,,(21 =y 1.欧氏距离 ∑=-=pi i iy xd 12)()(y x,2.明氏距离 mpi m i i y x d 11])([)(∑=-=y x,3.马氏距离 211)]()[()(y x Σy x y x,--=-T d 线性判别函数)(),(),(21x x x W W W 的估计⎪⎪⎪⎩⎪⎪⎪⎨⎧+=--=+=+=-----)(21)(ˆ),(ˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)2()1()2()1(1)2(1)2(2)2(12222)1(1)1(1)1(11111x x x x x S a x x a x x S x x S a x a x x S x x S a x a x ,==-,==-,=其中T T T T T W b W b W (5.5) 两个总体的距离判别准则⎩⎨⎧<∈≥∈)(ˆ)(ˆ,)(ˆ)(ˆ,21221x x G x x x G x 1W W W W 若若 (5.6) 或 ⎩⎨⎧<∈≥∈0)(ˆ,0)(ˆ,2x G x x G x 1W W若若2.书上5.3 (1)两总体之间的广义平方距离线性判别函数 ∧∧∧+=j T jj b W x a (x))常数项)(1)()(21j T j jb x S x --= 系数向量)(1j j xS a -∧=得到两总体的马氏平方距离为537.16),(ˆ212=G G d 反映了两总体的分离程度 线性判别函数为8765432117638.3038.3573.1924.73662.51623.07327.034858.50029.93)(ˆx x x x x x x x W ++-+-+++-=x 8765432124993.21473.69959.0806.51404.31685.02933.19719.45098.95)(ˆx x x x x x x x W ++-+--++-=x 以下结果是误判率的回带估计以下是交叉确认估计结果:用交叉确认法也将属于总体2G 的第17和19号样品误判为属于1G ,其余均回判正确,误判率的回代估计为:*2ˆ0.07427c p ==. 在此问距离判别分析中,西藏、上海、广东的判别结果如下:可以看到这三个省均以100%的判别概率分到了第二类,也即城镇居民消费指标比较高的类别中,从直观上感觉可能西藏的类别划分不是很准确。
以下再进一步进行Bayes 判别分析。
(2)(一)当总体的协方差相等时: 线性判别函数结果如下:112345678ˆ()121.49967.006 2.17890.3899 1.818 5.67040.04599.5775 1.9157W x x x x x x x x x =-++--++++212345678ˆ()177.68028.2695 3.0690.70190.1625 4.5807 1.054413.46520.9091W x x x x x x x x x =-++-+++++同样在回代估计中结果如下:交叉确认估计结果如下:交叉确认法误判率估计∧*p=2/27=0.074c三个待判样品的判别结果如下:也即同(1)都属于第二类。
(二)当总体的协方差不相等时:此时的交叉确认回判结果如下:也即21-27号省份都应该属于第一类但误判到第二类了,此时误判率估计∧*p=7/27=0.2592c在这种情况下三个样品的判别结果如下:也即在两总体协方差矩阵不相等的情况下所有省份都属于同一类,三个待判样品也判到了第一类。
显然这样的判别结果不是很合乎实际情况。
3.为了研究2005年全国各地区及国有控股工业企业的经营状况,数据见表1:2005经济指标:其中:X1—工业增加率(%),X2—总资产贡献率(%),X3—资产负债率(%),X4—流动资产周转次数(次),X5—工业成本费用利用率(%),X6—全员劳动生产率(万元/人.年),X7—产品销售率(%)(1)请用一种聚类分析方法将29个省市分为3种类型(广东、西藏除外);(2)利用距离判别建立判别函数,判定广东、西藏分别属于哪个发展类型?表3 2005经济指标样品地区X1 X2 X3 X4 X5 X6 X7序号1 北京26.91 4.5 31.14 1.88 6.39 17.96 98.992 上海28 11.7 43.6 1.99 8.57 27.57 99.23 天津32.9 13.9 60.19 2.2 10.77 21.27 101.984 河北30.38 10.4 64.01 2.31 5.96 11.28 98.675 山西37.48 9.4 67.82 1.71 6.82 7.93 97.856 内蒙古43.44 9.8 64.32 2.08 7.94 16.34 98.237 辽宁28.76 7.5 59.33 2.15 2.78 14.19 99.868 吉林29.48 8.5 60.57 2.11 3.45 12.29 99.459 江苏24.34 11.3 59.67 2.29 4.89 15.97 99.4110 浙江24.85 13.4 57.41 2.92 5.28 24.62 99.7211 安徽34.54 11.2 62.83 2.18 6.15 11.77 98.8912 福建28.87 11.9 56.16 2.38 5.74 15.38 99.4913 江西27.21 9.7 69.38 2.01 4 8.86 99.4914 山东36.59 15.8 60.18 2.55 10.83 18.17 99.0615 河南31.9 10.2 65.62 2.06 5.34 8.83 98.6116 湖北33.27 9.2 57.34 1.69 9.05 13.68 99.6317 湖南37.13 12.7 67.23 2.07 4.24 12.71 99.5218 广西31.64 10.8 62.91 2.09 5.88 10.42 99.6919 海南35.44 11.7 54.23 1.97 10.95 14.26 101.320 重庆25.95 8.2 58.92 1.58 3.71 8.34 99.3821 四川36.29 9.1 64.34 1.56 7.31 11.26 101.2422 贵州36.45 9.7 66.39 1.52 5.77 9.52 99.0623 陕西41.01 15.9 61.88 1.7 18.95 12.28 98.7624 甘肃25.76 9.5 59.32 2.3 3.55 9.02 98.9625 青海38.77 12.2 68.56 1.38 22.44 17 97.926 宁夏33.62 5.6 60.94 1.46 3.37 9 99.3827 黑龙江50.1 35.4 54.5 2.42 39.49 19.81 97.7128 云南44.76 20.1 47.44 1.5 13.41 22.54 100.1329 新疆45.21 23.9 50.58 3.15 27.1 24.83 99.931 西藏26.51 13 53.21 2.39 6.7 24.34 98.712 广东55.73 4.7 25.48 0.97 11.8 6.31 93.68(1)分类结果如下:从我国现在各省份的经济发展水平来看这样的分类结果还是比较理想的。
其中第一类的北京、上海经济发展较快,属于经济发达城市,黑龙江、云南、新疆这三个省份经济发展水平相对比较落后一点,属于第三类,是经济发展比较滞后的城市,其余24个省份经济水平差不多,属于第二类,是经济发展中城市。
(2)判定结果如下:可以看到:广东以100%的概率判定属于第一类经济比较发达的城市,西藏以72.41%的可能性判定在第二类经济发展中的城市。
4.波士顿房价问题为了了解波士顿地区的住房状况,Harrison收集了1978年波士顿大区每个调查行政区的506各观察值。
数据见Excel表波士顿住房,其中:X:人均犯罪率;1X:大块占地住宅区比例;2X:非零售商业占地比例(英亩);3X:查尔斯河虚拟变量(如果靠近河岸用1表示;否则用0表示);4X:氮氧化物浓度;5X:每户平均房间数;6X:1940年前建造的户主所有房比例;78X :与五个波士顿劳动力聚集区的加权距离; 9X :与辐射式公路接近指数; 10X :每1万美元的全值财产税;11X :学生/教师比例;12X :)63.0()63.0(10002<-B I B ,其中B 为非洲裔美国人比例;13X :低社会地位人口的比例(%); 14X :户主拥有住房价值的中位数(单位:千美元); (1) 对住房数据做聚类分析,将506个地区分为4类(将其中5、100、400号剔除),给出分类结果;你认为分几类合适,说出理由;(2) 利用距离判别,对住房状况做判别分析,并给出5、100、400号样品判别结果。