判别分析讲解

合集下载

数据分析知识:数据分析中的判别分析方法

数据分析知识:数据分析中的判别分析方法

数据分析知识:数据分析中的判别分析方法判别分析(Discriminant Analysis)是一种经典的统计分析方法,常用于解决分类问题。

通过对已知分类的数据进行学习,再对未知数据进行分类。

判别分析方法的主要目标是确定一个或多个变量的线性组合,这个线性组合在不同类别中能够最大化差异,最小化类内差异。

这篇文章将介绍判别分析的基本概念、方法和应用,并对判别分析和其他分类方法进行比较。

一、判别分析的基本概念1.1判别分析的基本思想判别分析的基本思想是找到一个或多个线性组合,使得不同类别之间的差异最大化,同一类别内的差异最小化。

这个线性组合可以被用来将数据投影到一个低维空间,从而实现分类。

比如,对于二分类问题,找到一条直线将两类数据分开。

1.2判别分析的应用场景判别分析广泛应用于生物医学、社会科学、市场营销等领域。

比如,利用判别分析对患者进行分类,预测其疾病的风险;对消费者进行分类,预测其购买行为等。

1.3判别分析的假设判别分析方法通常有一些假设,比如多元正态性、同方差性和无相关性等。

如果这些假设不成立,可能会影响判别分析的结果。

二、判别分析的方法2.1线性判别分析(LDA)线性判别分析是判别分析中最常用的方法之一。

它通过找到一个或多个线性组合,使得不同类别之间的差异最大化,同一类别内的差异最小化。

在实际应用中,常常利用LDA来降维,然后使用简单的分类器进行分类。

2.2二次判别分析(QDA)二次判别分析是判别分析的一种扩展,它允许类别内的协方差不相等。

相比于LDA,QDA的分类边界更加灵活,但是通常需要更多的参数。

2.3特征抽取判别分析通常需要找到一个或多个变量的线性组合,这些变量通常被称为特征。

特征抽取是判别分析的一个重要步骤,它可以通过一些算法比如主成分分析(PCA)来实现。

特征抽取的目标是尽可能多地保留原始数据的信息,在降低维度的同时尽可能减少信息损失。

三、判别分析的应用3.1医学领域在医学领域,判别分析被广泛应用于疾病诊断、治疗方案选择等方面。

统计学中的判别分析

统计学中的判别分析

统计学中的判别分析判别分析是统计学中一种常见的分析方法,旨在通过将样本数据归类到一个或多个已知的类别中,来识别和描述不同类别之间的差异。

它在很多领域中都有广泛的应用,例如医学、市场调研、金融等。

本文将介绍判别分析的基本原理、常见的判别分析方法以及其在实际应用中的一些例子。

一、判别分析的原理判别分析的目标是构建一个判别函数,通过输入变量的值来判别或预测样本所属的类别。

它的核心思想是通过最大化类别间的差异和最小化类别内部的差异,来建立一个有效的分类模型。

判别分析的基本原理可以用以下步骤来描述:1. 收集样本数据,包括已知类别的样本和它们的属性值。

2. 对每个样本计算各个属性的平均值和方差。

3. 计算类别内部散布矩阵和类别间散布矩阵。

4. 根据散布矩阵计算特征值和特征向量。

5. 选择最具判别能力的特征值和特征向量作为判别函数的基础。

二、判别分析的方法判别分析有多种方法可以选择,常见的包括线性判别分析(Linear Discriminant Analysis,简称LDA)和二次判别分析(Quadratic Discriminant Analysis,简称QDA)。

1. 线性判别分析(LDA)线性判别分析假设每个类别的样本数据满足多元正态分布,并且各个类别的协方差矩阵相等。

它通过计算最佳投影方向,将多维属性值降低到一维或两维来实现分类。

LDA在分类问题中被广泛应用,并且在特征选择和降维方面也有一定的效果。

2. 二次判别分析(QDA)二次判别分析不同于LDA,它允许每个类别具有不同的协方差矩阵。

QDA通常适用于样本数据的协方差矩阵不相等或不满足多元正态分布的情况。

与LDA相比,QDA在处理非线性问题时可能更有优势。

三、判别分析的应用实例判别分析在多个领域中都有广泛的应用,下面列举了一些实际的例子。

1. 医学领域在医学中,判别分析可以帮助诊断疾病或判断病情。

例如,可以利用病人的临床数据(如血压、血糖等指标)进行判别分析,来预测是否患有某种疾病,或者判断疾病的严重程度。

第六章--判别分析

第六章--判别分析

设有两个正态总体,
现有一个样品如图所示的A点,
A
距总体X的中心
远,距总体Y的中心

若按欧氏距离来度量,A点离总体X要比离总体Y近一些。但是,从概率论的
角度看,A点位于 点离总体Y近一些。
右侧的
而位于
左侧的
处,应该认为A
样品点x到
的马氏距离为:
(一)当

(二)当

虽然在两个总体有显著差异的条件下,误判概率很小,但当这种差异不很显著时,误判的 概率就很大。因此,只有当两个总体的均值有显著差异时,做判别分析才有意义。
-7.182 -4.379 -2.144 -9.440 -6.573 -6.906 -4.245
原分类 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
新分类 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3
第二节 贝叶斯(Bayes)判别
判别分析就是在研究对象用某种方法分好若干类(组)的情况下,确定新样品属 于已知类别中哪一类的多元统计分析方法。
判别分析和聚类分析不同,判别分析是在已知研究对象分成若干类型(或 组别) 并已取得各种类型的一批已知样品的观测数据 ,在此基础上根据某种准则建立 判别函数式,然后对未知类型的样品进行判别分类。而对于聚类分析,一批给 定样品要划分的类型事先并不知道,需要通过聚类分析来确定各样品所属的类 型。所以,判别分析和聚类分析往往结合起来运用。
第六章 判别分析
第一节 什么是判别分析
在科学研究和日常生活中,往往会遇到这样的问题,即根据观测数据对所研究的对象 进行分类(组)判别。例如,在经济学中可根据人均国内生产总值、人均消费水平等 多种指标来判别一个国家的经济发展程度所属类型;在气象学中,根据已有的气象资 料(气温、气压、湿度等)来判断明天是阴天还是晴天,有雨还是无雨等。以上各方 面的问题具有一个共同特点:就是事先已有“类”的划分,或事先已对某些已知样品 分好了“类”,需要判断那些还未分好的的样品究竟属于哪一类。

判别分析简介

判别分析简介
判别分析 一、判别分析的概念 判别分析是多变量统计分析中用于判别样品所属类型的一种统计分析方法。 它所要解决 的问题是在一些已知研究对象已经用某种方法分成若干类的情况下, 确定新的样品属于已知 类别中的哪一类。 判别分析在处理问题时, 通常要给出一个衡量新样品与已知类别接近程度 的描述统计模型,即判别函数,同时也需指定一种判别规则,借以判定新样品的归属。判别 分析主要分为 Fisher 判别和 Bayes 判别这两大类。 所谓判别分析法,就是在已知的分类之下,一旦遇到新的样品,可以利用此法选定一判 别标准,以判定将该新样品放置于哪个类中。换句话说,事先设有数个群体,此时,取数个 变量,作成适当的判别标准,即可辨别该群体的归属。 判别分析法用途很广,如动植物分类、医学疾病诊断、社区种类划分、气象区(或农业 气象区)划分、商品等级分类、职业能力分类,以及人类考古学上年代及人种分类等均可利 用。例如,在医学中,临床医师根据患者的主诉、体征及检查结果作出诊断,有时还需作鉴 别诊断或分型、分类的诊断;根据病人各种症状的严重程度预测病人的病症,或某些治疗方 法的疗效评估。又如环境污染程度的鉴定及环保措施、劳保措施的效果评估;流行病学中对 某些疾病的早期预报,疾病的病因学研究及影响因素的分析等。 判别分析的方法较多,我们主要介绍以下五中常用的方法:
于是, max max 2、计算判别界值
求得 ai 后,代入判别函数式即得判别函数。 求判别界值 Y0 :把类 1 、类 2 中各指标的均数分别代入判别函数式:
' Y1 a X 1 ' Y2 a X 2
然后以两均数的中点作为两类的界点:
Y0
Y1 Y2 2
3、建立判别标准
距离判别 线性判别 Fisher (属于确定性判别) 判别分析方法 非线性判别 典型判别 Bayes判别(属于概率性判别)

统计学习理论中的判别分析

统计学习理论中的判别分析

统计学习理论中的判别分析一、引言统计学习理论是机器学习领域的重要理论之一,在实际应用中广泛使用。

判别分析作为统计学习理论的重要组成部分,被用于解决分类问题、回归问题以及降维问题。

本文将介绍统计学习理论中的判别分析的概念、原理和实际应用。

二、判别分析的定义判别分析,即Discriminant Analysis,是指利用统计学习的方法,通过对已知类别的样本进行学习建模,从而对未知样本进行分类、回归或降维的过程。

判别分析的目标是找到一个决策边界,使得同一类别内的样本尽量相似,不同类别之间的样本尽量不相似。

三、判别分析的原理判别分析的原理建立在统计学和概率论基础之上。

常见的判别分析方法包括线性判别分析(Linear Discriminant Analysis, LDA)、二次判别分析(Quadratic Discriminant Analysis, QDA)和支持向量机(Support Vector Machines, SVM)等。

1. 线性判别分析(LDA)线性判别分析是一种经典的判别分析方法,它通过寻找一个投影方向,使得同一类别内样本的投影尽量接近,而不同类别之间的样本的投影尽量远离。

LDA主要包含以下几个步骤:(1)计算各个类别的均值向量和协方差矩阵;(2)计算类间散度矩阵和类内散度矩阵;(3)计算投影方向的特征值和特征向量;(4)选择前k个特征值对应的特征向量作为投影方向。

2. 二次判别分析(QDA)二次判别分析是线性判别分析的一种推广,它假设不同类别的样本具有不同的协方差矩阵,而不仅仅是相同的协方差矩阵。

因此,QDA在处理非线性分类问题时更具优势。

QDA的步骤与LDA类似,只是在计算投影方向时考虑到了协方差矩阵的差异。

3. 支持向量机(SVM)支持向量机是一种非常强大的判别分析方法,它通过寻找一个超平面将样本进行划分,并且最大化分类边界与最近样本点之间的距离。

SVM可以处理非线性分类问题,并且具有良好的泛化性能。

判别分析_精品文档

判别分析_精品文档

判别分析导言判别分析是统计学中一种常用的数据分析方法,用于区分不同群体或类别之间的差异。

它通过寻找最佳的分类边界,帮助我们预测或判定未知样本的分类。

判别分析常用于模式识别、数据挖掘、生物学、医学等领域。

本文将介绍判别分析的基本概念、应用领域和算法。

一、判别分析的基本概念判别分析旨在通过构造合适的判别函数,将不同群体或类别的样本区分开来。

判别函数的建立是判别分析的核心任务,而判别函数的类型通常根据问题的特点来选择。

常见的判别函数有线性判别函数、二次判别函数、贝叶斯判别函数等。

判别分析的目标是使得样本在不同类别的判别函数值有较大差异。

二、判别分析的应用领域1. 模式识别判别分析在模式识别中的应用非常广泛。

通过判别分析,我们可以建立能够识别不同模式的模型。

例如,在人脸识别任务中,我们可以使用判别分析来建立一个分类器,能够将不同人脸的图像正确分类。

2. 数据挖掘在数据挖掘领域,判别分析可以帮助我们发现变量之间的关系,并进行预测。

通过对已有数据进行判别分析,我们可以预测未知样本的分类。

例如,在市场营销中,通过对消费者进行判别分析,我们可以预测消费者的购买行为,从而制定更精准的营销策略。

3. 生物学和医学判别分析在生物学和医学领域中也有广泛的应用。

例如,在癌症诊断中,通过对患者的临床数据进行判别分析,我们可以建立一个分类器,能够判断该患者是否患有癌症。

三、判别分析的算法判别分析的算法根据问题的特点和要求选择。

下面介绍两种常见的判别分析算法:1. 线性判别分析(LDA)线性判别分析是一种常见且简单的判别分析算法。

它的核心思想是通过将高维数据映射到低维空间中,使得不同类别的样本在投影空间中有较大的差异。

在LDA算法中,我们需要计算类内散度矩阵和类间散度矩阵,并求解其特征值和特征向量,从而确定投影向量。

2. 二次判别分析(QDA)二次判别分析是一种更为复杂的判别分析算法。

它假设不同类别的样本的协方差矩阵不相等,即每个类别内部的变化程度不同。

第7判别分析(共38张PPT)

第7判别分析(共38张PPT)
zf
7.2 距离判别 ❖ 基本思想:
即:首先根据已知分类的数据,分别计算各类 的重心即各组(类)的均值,判别的准则是对任 给样品,计算它到各类重心的距离,哪个距离最
小就将它判归哪个类。
zf
yG1,如d2y,G1d2y,G2, yG2,如d2y,G2d2y,G1
待判, 如d2(y,G1)d2(y,G2)
0.87973×花瓣长-2.28382×花瓣宽 变色鸢尾花: Y=1.100772×花萼长+1.070119×花萼宽 +1.000877×花瓣长+0.197345×花瓣宽
佛吉尼亚鸢尾花: Y=0.865205×花萼长+0.746515×花萼宽
+1.646601×花瓣长+1.694931×花瓣宽
zf
五、判别新样本所属类别 742082 Z ×花萼宽 1、输入历史数据,计算 和 当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。 007192×花萼长+0. 2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。 二、判别分析的基本要求: Fisher判别的优势在于对分布、方差等都没有什么限制,应用范围较广。 例2:中小企业的破产模型 3、X3:高峰时期每三分钟国际电话的成本 二、判别分析的基本要求: 742082 Z ×花萼宽 分界图,将坐标平面划分为 87973×花瓣长-2. 所谓Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。 ⑴ 指定分组变量及其取值范围。 所谓Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。 3、X3:高峰时期每三分钟国际电话的成本 06327×花萼长-0. 使用该方法后,按钮“Method”将被激活

第十四章判别分析DiscriminantAnalysis

第十四章判别分析DiscriminantAnalysis

1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1
2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A1
3 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A1
观察131例糖尿病患者,要求其患眼无其他明显眼前段 疾患, 眼底无明显其他视网膜 疾病和视神经、葡萄膜等疾 患,测定了他们的以上各指标值,并根据统一标准诊断其疾患 类型,记分类指标名为group.见表14.2.<表中仅列出前5例>. 试以此为训练样本, 仅取age,vision,at,bv和qpv 5项指标, 求分类函数, 并根据王××的信息: 38岁, 视力1.0, 视网 膜电图at=14.25, bv=383.39, qpv=43.18判断其视网膜病变 属于哪一型.
<三>. 事前概率
事前概率〔prior probability〕又称先 验概率.如在所研究的总体中任取一个样品,该 样品属于第f类别的概率为q<yf>,则称它为类 别f的事前概率.例如, 阑尾炎病人总体中卡他 性占50%,蜂窝织炎占30%,坏疽性占10%,腹 膜炎占10%; 则在该总体中任取一个阑尾炎病 人,该病人属于以上四型的概率分别为 0.5,0.3,0.1和0.1, 它们也分别是这四类的事 前概率.
以王××的观察值代入分类函数, 得 Y1=-181.447+0.473×38+60.369×1.0+17.708×14.25
+0.048×383.39+0.364×43.18 =183.36 同样可算得: Y2=180.58, Y3=179.66 其中最大者为Y1, 故判断为轻度病变.

判别分析完整课件

判别分析完整课件
D ( y(1) y( 2) )(n1 n2 2) ( ci di )(n1 n2 2)
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di

《应用多元统计分析》第04章-判别分析

《应用多元统计分析》第04章-判别分析
量。通过反复迭代,最终构建最优的判别函数。
04
判别分析的实例与演示
数据来源与预处理
数据来源
判别分析所使用的数据通常来源于实际研究或调查,这些数据可能涉及到多个 变量和观测样本。
数据预处理
在应用判别分析之前,需要对数据进行预处理,包括数据清洗、缺失值处理、 异常值检测与处理、数据标准化等步骤,以确保数据的质量和可靠性。
2. 建立判别模型
选择合适的变量,并进行数据清理和预处 理,包括缺失值处理、异常值检测与处理 等。
选择合适的判别分析方法,如线性判别分析 (LDA)或二次判别分析(QDA),并利用 已知分类的数据来估计判别函数。
3. 模型评估
4. 应用模型
使用诸如混淆矩阵、准确率、召回率等指 标来评估模型的性能,并可能进行交叉验 证。
目的
通过建立判别函数,使得不同类别之 间的差异尽可能大,而同一类别内的 差异尽可能小。
判别分析与聚类分析的区别
01
判别分析基于已知分类数据, 目标是建立预测分类的规则; 而聚类分析则是将未知分类的 数据进行归类。
02
判别分析要求对各变量之间的 相关性进行建模,而聚类分析 则更注重数据之间的距离或相 似性。
总结词
两总体判别分析是一种基本的判别分析方法,用于根据已知分类的数据集构建判别函数,从而对新数据进行分类。
详细描述
两总体判别分析通常用于解决二分类问题,其基本思想是通过选择一组特征变量,使得不同类别的样本在这组变 量上的均值差异最大,同时使同类样本之间的离散度最小。判别函数通常采用线性或非线性形式,通过最小化分 类错误率来构建。
对特征选择敏感
判别分析的特征选择可能对结果 影响较大,如果选择不合适的特 征,可能会导致分类效果不佳。

判别分析

判别分析

判别分析判别分析是一种统计学方法,用于区分并分析不同组别之间的差异性。

它被广泛应用于各个领域,如医学、社会科学、运营管理等,以提供有关数据背后潜在关系的洞察。

判别分析的主要目标是通过输入变量对观测结果进行分类。

输入变量也被称为预测变量或自变量,而观测结果则被称为响应变量或因变量。

判别分析试图确定一组输入变量,这些变量在不同组别之间具有最大的差异性,并能够最好地将观测结果分类。

判别分析的基本原理是将观测结果(例如两个或多个不同的组别)映射到一个或多个输入变量的函数空间。

这个函数空间可以是线性的,也可以是非线性的。

通过对函数空间进行合理的选择和优化,判别分析能够实现对不同组别之间差异性的最大化。

判别分析的常见方法包括线性判别分析(LDA)、二元判别分析(BDA)和多元判别分析(MDA)。

线性判别分析试图找到一个线性函数,将不同组别之间的距离最大化,并将观测结果正确地分类。

而二元判别分析和多元判别分析则扩展了线性判别分析的范围,使其适用于更复杂的多类别问题。

判别分析在实践中有许多应用。

例如,在医学领域,判别分析可以用于将患者分为不同的疾病组别,以便更好地进行诊断和治疗。

在社会科学领域,判别分析可以帮助研究人员了解不同人群之间的差异,并对这些差异进行解释。

在运营管理领域,判别分析可以用于预测客户行为、市场细分等。

判别分析有其局限性和假设前提。

例如,判别分析假设输入变量是独立分布的,并且对方差具有相同的协方差矩阵。

此外,判别分析对异常值敏感,对于噪声和离群值的处理需要额外的注意。

总之,判别分析是一种强大的统计学方法,可用于识别和解释不同组别之间的差异性。

它在科学研究、医学诊断、市场调研等领域具有广泛的应用前景。

虽然判别分析有其限制和假设前提,但通过合理的数据处理和解释,可以充分利用判别分析的优势,提供有关数据背后潜在关系的深刻洞察。

第4讲 判别分析

第4讲 判别分析

( 1 2 ) 1 2[y ] ( 1 2 ) 2 1 2 1 ( 1 2 ) (a1 , a2 ,, a p ) 令 2
W (y ) (y ) (y )
a1 ( y1 1 ) a p ( y p p )
1
(y 2 ) (y 1 )
1
(y 1 )
1 2 y 1y 2y 1 2 2 11 ) (y 1y 2y 1 1 1
2y 1 ( 1 2 ) ( 1 2 ) 1 ( 1 2 )
马氏距离有如下的特点: 1、马氏距离不受计量单位的影响; 2、马氏距离是标准化后的变量的欧式距离
y=Σ
1 2
x - μ
-1 -1 yy = Σ 2 x - μ Σ 2 x - μ 1 1 2 = x - μ Σ Σ 2 x - μ
= x - μ Σ-1 x - μ
1 1
(三) 多总体的距离判别法
随着计算机计算能力的增强和计算机的普及,距离判 别法的判别函数也在逐步改进,一种等价的距离判别为:
设有个K总体,分别有均值向量μi(i=1,2,…,k)和协方差阵 Σi= Σ,各总体出现的先验概率相等。又设 Y是一个待判 样品。则与i的距离为(即判别函数)
1 d (y, Gi ) (y i ) (y i ) 2
y G1 , 如d y,G1 d y,G2 , 2 2 y,G1 y G , 如 d y , G d 2 2 待判, 如d 2 ( y, G ) d 2 ( y, G ) 1 2
2 2
d 2 (y , G2 ) d 2 (y , G1 ) (y 2 )

判别分析报告-四种方法

判别分析报告-四种方法

第六章 判别分析§6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。

在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。

例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。

总之,在实际问题中需要判别的问题几乎到处可见。

判别分析与聚类分析不同。

判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。

对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。

正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。

判别分析容很丰富,方法很多。

判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。

判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。

第5章判别分析

第5章判别分析

第5章判别分析判别分析(discriminantanalysis)是在已知样品分类的前提下,将给定的新样品按照某种分类准则判入某个类中,它是研究如何将个体“归类”的一种统计分析方法.这里的判别规则通常是以已有的数据资料或者现有的部分样品数据作为所谓的“训练样本”建立起来的,并用来对未知类别的新样品进行判别.这种统计方法在实际中很常用,例如医生在掌握了以往各种病症(如肺炎、肝炎、冠心病、糖尿病等)指标特点的情况下,根据一个新患者的各项检查指标来判断该病人有哪类病症;又如在天气预报中,利用已有的一段时期某地区每天气象的记录资料(阴晴雨、气温、风向、气压、湿度等),建立一种判别准则来判别(预报)明天或未来多天的天气状况;再如研究人员依照国家划分不同地区经济类型的数量标准,根据某个地区的GDP、人均收入、消费水平等相关指标判断该地区属于哪一种经济类型等.当然,我们要求判别规则在某种意义下是最优的,例如样品距所属类别的距离最短,或样品归属某个类别的概率最大,或错判平均损失最小等.判别分析与聚类分析的主要区别在于:作聚类分析时,人们事先并不知道所讨论的样品应该分成几类,完全根据样品数据的具体情况来确定;而作判别分析时,样品的分类事先已经明确,需要做的主要工作是利用训练样本建立判别准则,对新样品所属类别进行判定.判别分析的方法很多,本章主要介绍常用的三种,即距离判别、Fisher判别和Bayes判别,并介绍它们在R中的实现过程.5.1 距离判别5.1.1 距离距离是判别分析中的基本概念,距离判别法根据一个样品与各个类别距离的远近对该样品的所属类别进行判定.第4章中列举了六种距离,其中常用的是欧氏距离和马氏距离.设和是两个随机向量,有相同的协方差矩阵Σ,则α与y之间的马氏距离定义为:(5.1)特别地,当∑=I时,马氏距离就是通常的欧氏距离.在判别分析中,马氏距离更常用,这是因为欧氏距离对每一个样品同等对待,将样品x的各分量视作互不相关,而马氏距离考虑了样品数据之间的依存关系,从绝对和相对两个角度考察样品,消除了变量单位不一致的影响,更具合理性.这里以二维情形下一个简单的图形做直观的解释:如图5-1所示,设大椭圆和小椭圆分别表示两个总体G₁和G₂的置信度均为1-α的置信区域,尽管样品x到总体G₂的欧氏距离比到总体G₁的欧氏距离更短,但x却包含在总体G₁的置信椭圆内,同时位于总体G₂的置信椭圆外,说明若用马氏距离这种“标准化”距离来度量的话,样品x到总体G₁的距离更近,应该把样品x判入总体G₁.图5-1欧氏距离与马氏距离的选择示意图5.1.2 两个总体的距离判别设有两个总体G₁和G₂,其均值分别为μ₁和μ₂,有相同的协方差矩阵Σ,对于给定的一个样品x,要判断它属于哪一个总体.如果将样品x到两个总体G₁和G₂的距离d(x,G₁)和d(x,G₂)分别规定为x与μ(i=1,2)的马氏距离,那么,直观的方法i是分别计算样品x到两个总体G₁和G₂的马氏距离d(x,μ₁)和d(x,μ₂),再根据这两个距离的大小来判断x的归属:当d(x,μ₁)<d(x,μ₂)时,判x属于总体G₁;当d(x,μ₁)>d(x,μ₂)时,判α属于总体G₂;当d(x,μ₁)=d(x,μ₂)时,x可以属于总体G₁和G₂中的任何一个,通常把x判入总体G₁.因此判别准则可描述为:由于马氏距离与马氏距离的平方等价,为方便起见,以下考虑两个马氏距离的平方的差(5.2)令,并记(5.3)于是判别准则等价于这个判别准则取决于W(x)的值,通常称W(x)为判别函数,由于它是x的线性函数,又称其为线性判别函数,称a为判别系数.线性判别函数W(x)使用最方便,在实际中应用也最广泛.特别地,当p=1,G₁和G₂的分布分别为N(μ₁,o²)和N(μ₂,o²),μ₁,μ2,o²均为已知,且μ₁<μ₂时,则判别系数为,判别函数为.判别准则为:在实际应用中,总体的均值和协方差矩阵一般是未知的,可由样本均值和样本协方差矩阵分别进行估计.设是来自总体G₁的样本,是来自总体G₂的样本,μ₁和μ₂的一个无偏估计分别为:协方差矩阵Σ的一个联合无偏估计为:式中,此时,判别函数为,其中.这样,判别准则为:应该注意,当μi≠μz,Z₁≠Z₂时,我们仍可采用式(5.2)的变式作为判别函数,即(5.4)它是x的二次函数,相应的判别规则为:最后要强调的就是作距离判别时,μ₁和μ₂要有显著的差异才行,否则判别的误差较大,判别结果没有多大意义.【例5.1】已知某种昆虫的体长和翅长是表征性别的两个重要体形指标,根据以往观测值,雌虫的体型标准值为,雄虫的体型标准值,它们的共同的协方差矩阵为.现捕捉到这种昆虫一只,测得它的体长和翅长分别为7.2和5.6,即,试判断这只昆虫的性别.解:由已知条件,可由式(5.3)计算得所以可判断这只昆虫是一只雄虫.在R中可编写一个简单的程序计算W(x)(注意W(x)=[d²(x,μ₂)-d²(x,μ₁)]/2).>W2equal=function(x,mu1,mu2,S){(mahalanobis(x,mu2,S)-mahalanob is(x,mu1,S))/2}>mu1=c(6,5);mu2=c(8,6);S=matrix(c(9,2,2,4),nrow=2);x=c(7.2,5.6 )>W2equal(x,mu1,mu2,S)[1]-0.053125所以应判断这只昆虫是一只雄虫.若又捕捉到另一只同类昆虫,其体长和翅长数据为,则可继续计算如下:>x=c(6.3,4.9>W2equal(x,mu1,mu2,S)[1]0.225应将其判断为一只雌虫.当雌虫和雄虫的协方差矩阵不相同时,可由式(5.4)来计算W*(x),再根据计算结果作出判别.假定雌虫和雄虫总体数据对应的协方差矩阵分别为和那么可编写R程序如下:>W2unequal=function(x,mu1,mu2,S1,S2){mahalanobis(x,mu2,S2)-mah alanobis(x,mu1,S1)}>mu1=c(6,5);mu2=c(8,6);S1=matrix(c(9,2,2,4),nrow=2);S2=matrix( c(6,22,3),nrow=2)>x=c(7.2,5.6>W2unequal(x,mu1,mu2,S1,S2)[1]-0.07696429这里仍然用了最初那只昆虫的体长和翅长数据,结果仍然判断它是一只雄虫.两总体的距离判别还可使用自编程序“DDA2.R”,用法参见本章附录1.5.1.3 多个总体的距离判别设有k个总体G₁,G₂,…,Gk ,其均值和协方差矩阵分别是μ₁,μ₂,…,μg和Σ₁,Σ₂,…,Σk,而且Σ₁= Σ₂= … = Σk = Σ.对于一个新的样品x,要判断它来自哪个总体.该问题与两个总体的距离判别问题的解决思路一样,计算新样品x到每一个总体的距离,即式中,.故可以取线性判别函数为:相应的判别规则为:与二维情形类似,当μ₁,μ₂,…,μk和Σ均未知时,可以通过相应的样本均值和样本协方差矩阵来替代.另外,各总体的协方差矩阵Σ₁,Σ₂,…,Σk,不完全相同时也可以仿照二维情形讨论(参阅参考文献[10]).多总体的距离判别可使用本章附录所给出的R程序“DDAM.R”,使用方法可参见本章附录2后的说明.5.2 Fisher判别Fisher于1936年提出了该判别法,这是判别分析中奠基性的工作.该方法的主要思想是通过将多维数据投影到一维直线上,使得同一类别(总体)中的数据在该直线上尽量靠拢,不同类别(总体)的数据尽可能分开.从方差分析的角度来说,就是组内变差尽量小,组间变差尽量大.然后再利用前面的距离判别法来建立判别准则.Fisher判别法属于确定性判别法,有线性判别、非线性判别和典型判别等多种常用方法.以下主要介绍线性判别法.5.2.1两总体Fisher判别先考虑有两个总体G₁和G₂的情形,判别法的思想是将高维空间中的点投影到一维直线y上,使得由总体G₁和G₂产生的y尽可能分开,在此基础上再利用前面的距离判别法来建立判别准则.我们用一个简单的图形(见图5-2)来说明其原理.如图5-2所示,二维平面上有两类点,小圆点属于总体G₁,大圆点属于总体G₂,按照原来的横坐标x₁和纵坐标x₂,很难将它们区分开,但若把它们都投影到直线y上,则它们的投影点明显分为两组,同类的点聚集在一起,容易区分;又若把它们投影到与直线y垂直的直线上,则它们的投影点混杂在一起,难以分开.可见,投影直线的选取不一样,数据点的分类效果就大不相同,这提示我们要去寻找分类效果最好的投影直线y,使得在该投影直线上,同一类别的点的投影点尽量靠拢,不同类别的点的投影点尽量分开.显然,直线y是x₁和x₂的线性组合,即y=c₁x₁+c₂x₂.一般,在p维情况下,x的线性组合为:(5.5)图5-2投影直线选取示意图式中,a为p维实向量.设总体G₁和G₂的均值分别为μ₁和μ₂,它们有共同的协方差矩阵Σ,那么线性组合的均值为:(5.6)方差为:(5.7)显然,使得μ1y 与μ2y的距离越大的线性组合越好,所以考虑比值(5.8)现在的问题简化为:如何选取a,使得式(5.8)达到最大.定理5.1设x为p维随机向量,,当(c≠0为常数)时,式(5.8)达到最大.特别地,当c=1时,线性函数(5.9)称为Fisher线性判别函数(证明略).取(5.10)在μ₁≠μ₂的条件下,容易证明,于是可得Fisher判别准则如果记,则判别准则等价于需要指出的是:当总体的均值和协方差矩阵未知时,通常用样本均值和样本协方差矩阵来估计.设和,分别是来自总体G₁和G₂的样本,就可以分别用和估计μ₁和μ₂,用来估计Σ,这里.5.2.2多总体Fisher判别如果变量很多或有多个总体,通常要选择若干个投影,即若干个判别函数来进行判别.设有k个总体G₁,G ₂,…,Gx,它们有共同的协方差矩阵Σ,均值分别为μ₁,μ₂,…,μk,令(5.11)考虑p维随机向量x的线性组合,a为p维实向量,则均值和方差分别为:(5.12)注意到(5.13)考虑比值(5.14)问题等价于:如何选择a,使得式(5.14)达到最大.为了方便起见,设.定理5.2设λ₁,λ₂,…,λs(λ₁≥λ₂≥…≥λs>0)为Σ-¹G的s个非零特征值,s≤min(k-1,p),e₁,e₂,…,e为相应的特征向量且满足,那么当a₁=e₁s时,式(5.14)达到最大,称为第一判别函数,而a₂=e₂是在约束条件之下使得式(5.14)达到最大值的解,称为第二判别函数,如此下去,as =es是在约束条件之下使得式(5.14)达到最大值的解,称为第s个判别函数(证明略).当总体的均值和协方差矩阵未知时,通常用样本均值和样本协方差矩阵来估计,与两总体的Fisher判别方法类似,也可以建立多个总体的Fisher判别准则,但形式比较复杂,这里不再讨论.【例5.2】在R软件的内置档案中自带了著名的鸢尾花(iris)数据,该数据框有5列:Sepal.Length(花萼长度),Sepal.Width(花萼宽度),Petal.Length(花瓣长度),Petal.Width(花瓣宽度)和Species(品种).品种又分为setosa(刚毛鸢尾花),versicolor(变色鸢尾花)和virginica(弗吉尼亚鸢尾花).每个品种各有50行,即数据框共有150行.解:先读取iris数据,再用程序包MASS中的线性判别函数lda()作判别分析,R程序如下:>data(iris)>irisSepal.Length Sepal.Width Petal.LengthPetal.Width Species1 5.1 3.5 1.4 0.2setosa2 4.9 3.0 1.4 0.2setosa......50 5.0 3.3 1.4 0.2setosa51 7.0 3.2 4.7 1.4versicolor52 6.4 3.2 4.5 1.5versicolor......100 5.7 2.8 4.1 1.3 versicolor101 6.3 3.3 6.0 2.5 virginica102 5.8 2.7 5.1 1.9 virginica......150 5.9 3.0 5.1 1.8 virginica>attach(iris) #把数据变量的名字放入内存,这样能直接使用各列数据>library(MASS) #加载MASS程序包,这是必须的,否则找不到1da()函数>1d=lda(Species~Sepal.Length+Sepal.Width+Petal.Length+Petal.Wi dth)#也可以用命令iris.lda=lda(iris[,1:4],iris[,5]),注意第5列是品种,取作因变#量y>1dCall:lda(Species~Sepal.Length+Sepal.Width+Petal.Length+Petal.WidthPriorprobabilitiesofgroups:setosa versicolor virginica0.3333333 0.3333333 0.3333333Groupmeans:Sepal.Length Sepal.Width Petal.LengthPetal.Widthsetosa 5.006 3.428 1.4624.260Versicolor 5.936 2.770 4.2601.326Virginica 6.588 2.974 5.5522.026Coefficientsoflineardiscriminants:LD1 LD2Sepal.Length 0.8293776 0.02410215Sepal.Width 1.5344731 2.16452123Petal.Length -2.2012117 -0.93192121Petal.Width -2.8104603 2.83918785Proportionoftrace:LD1 LD20.9912 0.0088以上输出中包括lda()所用的公式、先验概率、各组均值向量、第一及第二线性判别函数的系数、两个判别式对区分各总体贡献的大小等.可以在R中使用help(lda)查看该函数的详细用法.需要指出的是,R中有内置函数predict(),可以对原始数据进行回判分类,从而可以将lda()的输出结果与原始数据真正的分类进行对比,考察误差的大小.R程序及结果如下:>Z=predict(ld)>newG=Z$class>cbind(Species,newG,Z$x) #Z$x给出了Z中两个判别函数相应的值Species new GLD1 LD21 1 1 8.0617998 0.3004206212 1 1 7.1286877 -0.786660426 ......70 2 2 -1.0904279 -1.62658349671 2 3 -3.7158961 1.04451442172 2 2 -0.9976104 -0.490530602 ......83 2 2 -0.8987038 -0.90494003484 2 3 -4.4984664 -0.88274991585 2 2 -2.9339780 0.027379106133 3 3 -6.8001500 0.580895175134 3 2 -3.8151597 -0.942985932 135 3 3 -5.1074897 -2.130589999 ......149 3 3 -5.8861454 2.345090513150 3 3 -4.6831543 0.332033811 这里Species是原始类别,newG是回判类别,LD1和LD2分别是第一和第二线性判别函数的值.我们还可以用table()函数来列表比较,R程序及结果如下:>tab=table(newG,Species)>tabSpeciesnewG setosa versicolor virginicasetosa 50 0 0Versicolor 0 48 1virginica 0 2 49由结果可以看出,对150个原始数据的预测中,只有3个错误,误差率为2%,其中有2朵versicolor鸢尾花(71号和84号)被误认为是virginica鸢尾花,有1朵virginica鸢尾花(134号)被误认为是versicolor鸢尾花.5.3 Bayes判别上面讲的几种判别分析方法计算简单,易于操作,比较实用.但是这些方法也有明显的不足之处.一是判别方法与总体各自出现的概率的大小无关;二是判别方法与错判之后所造成的损失无关.Bayes判别法就是为了解决这些问题而提出的一种判别方法,它假定对研究对象已经有了一定的认识,这种认识可以用先验概率来描述,当取得样本后,就可以利用样本来修正已有的先验概率分布,得到后验分布,再通过后验分布进行各种统计推断.Bayes判别法属于概率判别法,判别准则是以个体归属某类的概率最大或错判总平均损失最小为标准.5.3.1两总体的Bayes判别设有两个总体G₁和G₂,它们的概率密度函数分别为f₁(x)与f₂(x),其中x是一个p维随机向量,Ω为x的所有可能取值构成的样本空间,R₁为x的根据某种规则被判入总体G₁的取值全体的集合,那么R₂=Ω-R₁就为x的根据同样规则被判入总体G₂的取值全体的集合.设样本α来自总体G₁(形式记为x∈G₁),但被判入总体G₂的概率为:又记x来自总体G₂(形式记为x∈G₂),但被判入总体G₁的概率为:类似地,x来自总体G₁被判入G₁,来自总体G₂被判入G₂的概率可分别记为:又设总体G₁和G₂出现的先验概率(priorprobabilities)分别为p₁和pz,且p ₁+p₂=1,于是同理假设L(j|i)(i,j=1,2)表示x来自总体Gi而被误判入总体Gj引起的损失,显然有L(1|1)=L(2|2)=0,将上述误判概率与误判损失结合起来,可以定义所谓的平均误判损失(expected cost of misclassification,ECM)为:(5.15)一个合理的判别选择是极小化ECM.可以证明(见参考文献[10]):极小化ECM 所对应的样本空间2的划分为:(5.16)因此,可以将式(5.16)作为Bayes判别的判别准则.当两总体服从正态分布时,设,可分两种情形讨论.若Σ₁=Σ₂=Σ,则两总体的密度函数为:此时式(5.16)等价于(5.17)式中(5.18)(5.19)由此可见,对于两正态分布总体的Bayes判别,其判别式(5.17),(5.18)和(5.19)可以看成两总体距离判别的推广,当p₁=pz,L(1|2)=L(2|1)时,β=ln1=0,这正是距离判别,这里的W(x)也与两总体距离判别的W(x)完全一致,参见式(5.3).若Σ₁≠Σ₂,可仿照上面对式(5.16)作推广,参见参考文献[12].5.3.2多总体的Bayes判别从上面的讨论可知,Bayes判别的本质就是寻找一种适当的判别准则,使得平均误判损失ECM达到最小.在两总体情形下,由式(5.15)可知,若假设所有错判损失相同,即设L(2|1)=L(1|2)=C,那么要ECM尽量小,相当于要p₁P(1|1)+p₂P(2|2)尽量大,这有助于理解多总体Bayes判别所用的判别准则.设有k个总体G₁,G₂,…,Gx,其各自的分布密度函数为f(x),f2(x),…,fk(x),相应的先验概率分别为p₁,p₂,…,pk,并假设所有的错判损失相同,对待判样品x,相应的判别准则为:(5.20)以下只对G₁,G₂,…,Gk均为正态总体,即进行讨论.当k个总体的协方差矩阵都相同,即时,总体Gi 的密度函数为:计算函数在计算过程中,协方差矩阵Σ可用其估计式代替.当k个总体的协方差矩阵不全相同时,总体Gj的密度函数为:则相应计算函数在计算过程中,协方差矩阵Σj可用其估计式代替.判别准则式(5.20)等价于【例5.3】(数据文件为eg5.3)表5-1是某气象站预报有无春旱的数据资料,x₁和x₂是两个综合性预报因子.表中给出了有春旱的6个年份数据和无春旱的8个年份数据.它们的先验分布用各组数据出现的比例(6/14,8/14)来估计,并假设误判损失相等,试用Bayes判别法对数据进行分析.表5-1某气象站有无春旱的数据资料解:先在eg5.3中选取G,x1,x₂三列数据,然后复制,回到R命令窗口中输入如下命令后再确定,就可将复制的数据读入R.R程序及结果如下:>d5.3=read.table("clipboard",header=T)>attach(d5.3)>library(MASS)>1d=1da(G~x1+x2,prior=c(6,8)/14)>1dCall:lda(G~x1+x2,prior=c(6,8)/14)Prior probabilities of groups:1 20.4285714 0.5714286#若先验概率未知,可以先设为均匀分布,即prior=c(0.5,0.5) Groupmeans:x1 x21 25.31667 -2.4166672 22.02500 -1.187500Coefficients of linear discriminants:LD1x1 -0.6312826x2 1.0020661再用函数predict()对原始数据进行回判分类,并与lda()的输出结果进行对比,R程序及结果如下:>Z=predict(1d)>newG=Z$class>cbind(G,newG,Z$x)#Z$x为判别函数的值G newG LD11 1 1 -1.14755452 1 1 -1.10648313 1 1 -3.28592944 1 2 -0.22668045 1 1 -1.68965906 1 1 -3.89116217 2 2 1.85959468 2 2 1.4737896......13 2 2 1.358561514 2 2 1.7002528>tab=table(G,newG)>tabnewgG 1 21 5 12 0 8>sum(diag(prop.table(tab)))[1] 0.9285714程序输出说明,第一组样本中只有第4号样本被误判入第二组,第二组样本回判全部正确,回判符合率为92.857%.我们还可以用命令Z$post计算后验概率:>Z$post1 21 0.9386546174 6.134538e-022 0.9303445828 6.965542e-023 0.9999448424 5.515761e-05......13 0.0038092358 9.961908e-0114 0.0012325974 9.987674e-015.4案例分析与R实现案例5.1(数据文件为case5.1)表5-2中列出了1994年我国30个省、直辖市、自治区影响各地区经济增长差异的制度变量数据,分为两组.其中,x₁为经济增长率(%);x₂为非国有化水平(%);x₃为开放度(%);x₄为市场化程度(%).借助R 软件,分别用两总体的距离判别法、Fisher判别法和Bayes判别法进行判别分析,并对江苏、安徽和陕西三个待判地区作出判定.(注:样本号为28,29,30的待判样品的类别先暂定为2,待实际判别分析后再确定,这样做的好处是录入和处理数据较为方便.)表5-2 1994年我国30个省、直辖市、自治区影响各地经济增长差异的制度变量数据解:(1)距离判别法.要读入Excel数据,先在case5.1中选取数据区域D1:H31(注意:要连待判数据一起选),然后复制,回到R命令窗口中输入如下命令后再确定,就可将复制的数据读入R.然后把本章附录中两总体距离判别程序“DDA2.R”放到当前工作目录下,再载入R并执行,还可以用var(classG1)和var(classG2)分别计算两个训练样本的协方差矩阵,结果发现它们明显不相等.R程序及结果如下:>case5.1=read.table("clipboard",header=T) #将已复制到剪贴板中的数据读入R>attach(case5.1) #把数据变量名字放入内存>classG1=case5.1[1:11,2:5] #选取训练样本1>classG2=case5.1[12:27,2:5] #选取训练样本2>newdata=case5.1[28:30,2:5] #选取待测样本用于后面判定>source("DDA2.R") #载入自编程序DDA2.R>DDA2(classG1,classG2) #执行程序DDA2.R1 2 ... 8 9 10 11 12 13 (24)25 26 27blong 1 1 ... 1 1 2 1 2 2 (2)2 2 2回代判别的结果说明只有第10号样本“广西”被错判入第二组,判别符合率为26/27=96.3%.最后对江苏、安徽和陕西三个样本进行判定(样本号为28,29,30),数据已包含在newdata中,R程序为:>DDA2(classG1,classG2,newdata)#对待判样本newdata进行判定1 2 3blong 1 2 2输出结果第一行中的1,2,3分别表示江苏、安徽和陕西三个待测样本(样本号为28,29,30),判别结果是江苏被判入第一组,安徽和陕西均被判入第二组.(2)Fisher判别法也是先要读入数据,在case5.1中选取数据区域D1:H28(注意:这里不选待判数据,因为lda()函数要使用已有的各列数据作为变量来建立判别模型),然后复制,回到R命令窗口中输入如下命令后再确定,就可将复制的数据读入R.R 程序及结果如下:>case5.1=read.table("clipboard",header=T)>attach(case5.1)>library(MASS)>1d=1da(G~x1+x2+x3+x4)>ldCalllda(G~x1+x2+x3+x4)Prior probabilities of groups:1 20.4074074 0.5925926Groupmeans:x1 x2 x3 x41 15.73636 65.02818 25.149091 74.3502 11.56250 40.10625 9.228125 58.105Coefficients of linear discriminants:LD1x1 -0.06034498x2 -0.01661878x3 -0.02532111x4 -0.08078449以上输出结果中包括lda()所用的公式、先验概率、各组均值向量、第一线性判别函数的系数.再用predict()函数对原始数据进行回判分类,将lda()判别的输出结果与原始数据真正的分类进行对比.R程序及结果如下:>Z=predict(ld) #预测判定结果>nevG=Z$class #新分类>cbind(G,newG,Z$x) #合并原分类、新分类及判别函数值G newG LD11 1 1 -0.636598122 1 1 -0.85792242....9 1 1 -3.8115753710 1 2 0.1086677611 1 1 -0.65403492....26 2 2 2.2650082627 2 2 1.52288285>tab=table(G,newG) #原分类和新分类列表比较>tabnevGG 1 21 10 12 0 1>sum(diag(prop.table(tab))) #计算判别符合率[1] 0.962963可见,只有第一组中的第10号样品“广西”被错判入第二组,与距离判别法结果一致.还可以用命令sum(diag(prop.table(tab)))计算判别符合率.最后对三个待判样本进行判定.先要读入待判样本数据,在case5.1中选取待判样本数据区域D1:H31(注意:要连待判数据一起选),然后复制,回到R命令窗口中输入如下命令后再确定,将复制的数据读入R.在其基础上选取待判样本数据.R程序及结果如下:>case5.1=read.table("clipboard",header=T)>newdata=case5.1[28:30,2:5] #选取待判样本用于下面判别>predict(ld,newdata=newdata)$class[1] 1 2 2Levels: 1 2$posterior1 228 0.87303785 0.126962229 0.48273895 0.517261130 0.01957491 0.9804251$xLD128 -1.187448129 -0.348841830 1.2655298说明:由$class可以看出28号样本被判人第一组,29,30号样本被判入第二组,结果与距离判别法一致;$x给出了线性判别函数的值.(3)Bayes判别法Bayes判别法和Fisher判别法类似,不同的是在使用函数lda()时要输入先验概率.它们的先验概率用各组数据出现的比例(11/27,16/27)来估计(默认情形),并假设误判损失相等.同Fisher判别法的分析过程一样,先复制数据,读入R,具体操作及结果如下:>case5.1=read.table("clipboard",header=T)>attach(case5.1)>library(MASS)>1d=lda(G~x1+x2+x3+x4,prior=c(11/27,16/27))>ldCall:lda(G~x1+x2+x3+x4,prior=c(11/27,16/27))Prior probabilities of groups:1 20.4074074 0.5925926Groupmeans:x1 x2 x3 x41 15.73636 65.02818 25.149091 74.3502 11.56250 40.10625 9.228125 58.105Coefficients of linear discriminants:LD1x1 -0.06034498x2 -0.01661878x3 -0.02532111x4 -0.08078449>Z=predict(ld)>newG=Z$class>cbind(G,newG,Z$x)G newG LD11 1 1 -0.636598122 1 1 -0.85792242....9 1 1 -3.8115753710 1 2 0.1086677611 1 1 -0.65403492....26 2 2 2.2650082627 2 2 1.52288285>tab=table(G,newG)>tabnewGG 1 21 10 12 0 16>sum(diag(prop.table(tab))[1] 0.962963判别结果与距离判别法、Fisher判别法一致.另外,Bayes判别法对三个样本数据的判别过程和判定结果也与Fisher判别法相同.习题5.1在定理5.1的假设下,证明:当μ₁≠μ₂时,有μ₁y-μ₂>0及μ2y-μy<0成立.5.2(数据文件为ex5.2)根据经验,今天的湿温差x₁和气温差x₂是预报明天下雨或不下雨的两个重要因子,试就表5-3中的数据建立Fisher线性判别函数进行判别.又设今天测得x₁=8.1,x₂=2.0,问:应该预报明天是雨天还是晴天?表5-3 雨天和晴天的湿温差x₁和气温差x₂续前表5.3(数据文件为ex5.3)某企业生产的产品,其造型、性能和价位及所属级别如表5-4所示.试利用表中数据,使用Fisher判别法和Bayes判别法进行判别分析.表5-4 某企业产品的造型、性能、价位及级别等指标序号造型性能价位级别13342872286577337775614164379153446841617556827487851286562692944796021037542731188874531256733631338567631477288435.4(数据文件为ex5.4)在研究砂基液化问题中,选了七个因子.今从已液化和未液化的地层中分别抽了12个和23个样本,其中1类表示已液化类,2类表示未液化类.试用距离判别法对原来的35个样本进行回代分类并分析误判情况.表5-5 砂基液化原始分类数据编号类别x1 x2 x3 x4 x5 x6 x71 1 6.6 39 1.0 6.0 6 0.12 202 1 6.6 39 1.0 6.0 12 0.12 203 1 6.1 47 1.0 6.0 6 0.08 124 1 6.1 47 1.0 6.0 12 0.08 125 1 8.4 32 2.0 7.5 19 0.35 756 1 7.2 6 1.0 7.0 28 0.30 307 1 8.4 113 3.5 6.0 18 0.15 758 1 7.5 52 1.0 6.0 12 0.16 409 1 7.5 52 3.5 7.5 6 0.16 4010 1 8.3 113 0.0 7.5 35 0.12 180续前表编号类别T1 T2 Z3 Z4 T5 Z6 T711 1 7.8 172 1.0 3.5 14 0.21 4512 1 7.8 172 1.5 3.0 15 0.21 4513 2 8.4 32 1.0 5.0 4 0.35 7514 2 8.4 32 2.0 9.0 10 0.35 7515 2 8.4 32 2.5 4.0 10 0.35 7516 2 6.3 11 4.5 7.5 3 0.20 1517 2 7.0 8 4.5 4.5 9 0.25 3018 2 7.0 8 6.0 7.5 4 0.25 3019 2 7.0 8 1.5 6.0 1 0.25 3020 2 8.3 161 1.5 4.0 4 0.08 7021 2 8.3 161 0.5 2.5 1 0.08 7022 2 7.2 6 3.5 4.0 12 0.30 3023 2 7.2 6 1.0 3.0 3 0.30 3024 2 7.2 6 1.0 6.0 5 0.30 3025 2 5.5 6 2.5 3.0 7 0.18 1826 2 8.4 113 3.5 4.5 6 0.15 7527 2 8.4 113 3.5 4.5 8 0.15 7528 2 7.5 52 1.0 6.0 6 0.16 4029 2 7.5 52 1.0 7.5 8 0.16 4030 2 8.3 97 0.0 6.0 5 0.15 18031 2 8.3 97 2.5 6.0 5 0.15 18032 2 8.3 89 0.0 6.0 10 0.16 18033 2 8.3 56 1.5 6.0 13 0.25 18034 2 7.8 172 1.0 3.5 6 0.21 4535 2 7.8 283 1.0 4.5 6 0.18 455.5(数据文件为ex5.5)表5-6是某金融机构客户的个人资料.对一个金融机构来说,对客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多重要的信息,建立客户的信用度评价体系.所选8个指标:x₁为月收入;x₂为月生活费支出;x₃是虚拟变量,住房的所有权属于自己的为“1”,租用的为“0”;x₄为目前工作的年限;x₅为前一个工作的年限;x₆为目前住所的年限;x₇为前一个住所的年限;x₈为家庭赡养的人口数;G为信用度级别,信用度最高为“5”,信用度最低为“1”.试对表5-6中的数据进行Fisher判别分析;又若一位新客户的8个指标分别为(2500,1500,0,3,2,3,4,1),试对该客户的信用度进行评价.表 5-6某金融机构客户的个人信用度评价数据序号x1 x2 x3 x4 x5 x6 x7 x8 G1 1000 3000 0 0.1 0.3 0.1 0.3 4 12 3500 2500 0 0.5 0.5 0.5 2 1 13 1200 1000 0 0.5 0.5 1 0.5 3 14 800 800 0 0.1 15 1 3 1续前表序号x1 x2 x3 x4 x5 x6 x7 x8 G5 3000 2800 0 1 2 3 4 3 16 4500 3500 0 8 2 10 1 5 27 3000 2600 1 6 1 3 4 2 28 3000 1500 0 2 8 6 2 5 39 850 425 1 3 3 25 25 1 310 2200 1200 1 6 3 1 4 1 311 4000 1000 1 3 5 3 2 1 412 7000 3700 1 10 4 10 1 4 413 4500 1500 1 6 4 4 9 3 414 9000 2250 1 8 4 5 3 2 515 7500 3000 1 10 3 10 3 4 516 3000 1000 20 5 15 10 1 517 2500 700 10 5 15 5 3 55.6(数据文件为ex5.6)为了研究中小企业的破产模型,选定4个经济指标:x₁为总负债率(现金收益/总负债);x₂为收益性指标(纯收入/总财产);x₃为短期支付能力(流动资产/流动负债);x₄为生产效率性指标(流动资产/纯销售额).对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料(见表5-7).试对表5-7中的数据进行Bayes判别分析并对8个待判样品类别进行判定.表5-7 中小型企业破产模型经济指标续前表附录附录1(两总体G₁和G₂距离判别的R程序“DDA2.R”)DDA2<-function(TrnG1,TrnG2,TstG=NULL,var.equal=FALSE){if(is.null(TstG)==TRUE)TstG<-rbind(TrnG1,TrnG2)if(is.vector(TstG)==TRUE)TstG<-t(as.matrix(TstG))elseif(is.matrix(TstG)!=TRUE)TstG<-as.matrix(TstG)if(is.matrix(TrnG1)!=TRUE)TrnG1<-as.matrix(TrnG1)if(is.matrix(TrnG2)!=TRUE)TrnG2<-as.matrix(TrnG2);nx<-nrow(TstGblong<-matrix(rep(0,nx),nrow=1,byrow=TRUE,dimnames=list("blong ",1:nx))mu1<-colMeans(TrnG1);mu2<-colMeans(TrnG2)if(var.equal==TRUE||var.equal==T){S<-var(rbind(TrnG1,TrnG2))w<-mahalanobis(TstG,mu2,S)-mahalanobis(TstG,mu1,S)}else{S1<-var(TrnG1);S2<-var(TrnG2)w<-mahalanobis(TstG,mu2,S2)-mahalanobis(TstG,mu1,S1)}for(iin1:nx){if(w[i]>0)blong[i]<-1elseblong[i]<-2}blong在该程序中,输入变量TrnG1和TrnG2分别表示来自总体G₁和G₂的训练样本,其输入格式是数据框或矩阵(样本按行输入);输入变量TstG是待测样本,其输入格式是数据框、矩阵(样本按行输入)或向量(一个待测样本).如果不输入TstG(默认值),则待测样本为两个训练样本之和,即计算训练样本的回判情况.输入变量var.equal是逻辑变量,var.equal=TRUE表示两个总体的协方差矩阵相同,否则(默认值)为不同.函数的输出是由“1”和“2”构成的一维矩阵,“1”表示待测样本属于G₁类,“2”表示待测样本属于G₂类.当两总体样本协方差矩阵相同时,该程序的使用命令为:DDA2(classG1,classG2,var.equal=TRUE).当两总体样本协方差矩阵不相同时,该程序的使用命令为:DDA2(classG1,classG2),附录2(多总体距离判别的R程序“DDAM.R”)DDAM<-function(TrnX,TrnG,TstX=NULL,var.equal=FALSE){if(is.factor(TrnG)==FALSE){mx<-nrow(TrnX);mg<-nrow(TrnG)TrnX<-rbind(Trnx,TrnG)TrnG<-factor(rep(1:2,c(mx,mg)))}if(is.null(TstX)==TRUE)TstX<-TrnXif(is.vector(TstX)==TRUE)TstX<-t(as.matrix(TstX))elseif(is.matrix(TstX)!=TRUE)TstX<-as.matrix(TstX)if(is.matrix(TrnX)!=TRUE)TrnX<-as.matrix(TrnX)nx<-nrow(TstX)blong<-matrix(rep(0,nx),nrow=1,dimnames=list("blong",1:nx))g<-length(levels(TrnG))mu<-matrix(0,nrow=g,ncol=ncol(Trnx))for(iin1:g)mu[i,]<-colMeans(TrnX[TrnG==i,])D<-matrix(0,nrow=g,ncol=nx)if(var.equal==TRUE|var.equal==T){for(iin1:g)D[i,]<-mahalanobis(Tstx,mu[i,],var(TrnX))}else{for(iin1:g)D[i,]<-mahalanobis(Tstx,mu[i,],var(Trnx[TrnG==i,]))}。

判别分析四种方法

判别分析四种方法

判别分析四种方法判别分析(Discriminant Analysis)是一种用于分类问题的统计方法, 它通过分析已知分类的样本数据,构造出一个判别函数,然后将未知类别的样本数据带入判别函数进行分类。

判别分析可以用于研究变量之间的关系以及确定分类模型等方面。

在判别分析中,有四种主要的方法,包括线性判别分析(Linear Discriminant Analysis, LDA)、二次判别分析(Quadratic Discriminant Analysis, QDA)、多重判别分析(Multiple Discriminant Analysis, MDA)和正则化判别分析(Regularized Discriminant Analysis, RDA)。

1.线性判别分析(LDA):线性判别分析是最常用的判别分析方法之一、它假设每个类别的样本数据都服从多元正态分布,并且各个类别具有相同的协方差矩阵。

基于这些假设,LDA通过计算类别间离散度矩阵(Sb)和类别内离散度矩阵(Sw),然后求解广义瑞利商的最大化问题,得到最佳的线性判别函数。

线性判别分析适用于样本类别数量较少或样本维度较高的情况。

2.二次判别分析(QDA):二次判别分析是基于类别的样本数据服从多元正态分布的假设构建的。

与LDA不同的是,QDA没有假设各个类别具有相同的协方差矩阵。

相反,QDA为每个类别计算一个特定的协方差矩阵,并将其带入到判别函数中进行分类。

由于QDA考虑了类内协方差矩阵的差异,因此在一些情况下可以提供比LDA更好的分类效果。

3.多重判别分析(MDA):4.正则化判别分析(RDA):正则化判别分析是近年来提出的一种改进的判别分析方法。

与LDA和QDA不同的是,RDA通过添加正则化项来解决维度灾难问题,以及对输入数据中的噪声进行抑制,从而提高分类的准确性。

正则化项的引入使得RDA可以在高维数据集上进行有效的特征选择,并获得更鲁棒的判别结果。

41判别分析

41判别分析


三、判别分析的实质
我们知道,判别分析就是希望利用已经测得的变量数据,找 出一种判别函数,使得这一函数具有某种最优性质,能把属 于不同类别的样本点尽可能地区别开来。为了更清楚的认识 判别分析的实质,以便能灵活的应用判别分析方法解决实际 问题,我们有必要了解“划分”这样概念。
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
设有两个正态总体,已知:
1
10 15
2
20 25
18 12 1 12 32
20 7
2 7
5
试用距离判别法判断:样品: 应归属于哪一类?
X
20 20

解:比较样品X到两总体的马氏距离的大小:
d
2 m
(
X
,
G
)
(X
) 1( X
)
dm2
(
X
,
G1
)
20 20
10 15
程度的思路原则。 常用的有:距离准则、Fisher准则、贝叶斯准则。
判别函数:基于一定的判别准则计算出的用于衡
量新样品与各已知组别接近程度的描述指标,即判 别函数。
(二)判别分析的种类
按照判别组数划分有: 两组判别分析和多组判别分析;
按照区分不同总体的所用数学模型来分有: 线性判别分析和非线性判别分析;
32 12
12
18
20 20
10 15
1 432
10,
5
32 12
12 10 1
18
5
432
=5.67
dm2
(
X

第八章 判别分析

第八章  判别分析


例 在企业的考核中,可以根据企业的生产经营情 在企业的考核中,
况把企业分为优秀企业和一般企业。 况把企业分为优秀企业和一般企业。考核企业经营状 况的指标有: 况的指标有: 资金利润率=利润总额 资金占用总额 资金利润率 利润总额/资金占用总额 利润总额 劳动生产率=总产值 职工平均人数 劳动生产率 总产值/职工平均人数 总产值 产品净值率=净产值 总产值 产品净值率 净产值/总产值 净产值 三个指标的均值向量和协方差矩阵如下。 三个指标的均值向量和协方差矩阵如下。现有二个 企业, 企业,观测值分别为 ),问这 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这 , , ) , , ), 两个企业应该属于哪一类? 两个企业应该属于哪一类?
L x1 p L x2 p M M L xnp
x12 − x2 x22 − x2 M xn 2 − x2 L x1 p − x p L x2 p − x p M M L xnp − x p
离差阵(协方差阵): 离差阵(协方差阵):
x11 − x1 x −x 12 2 S1 = M x1P − xP L xn1 − x1 x11 − x1 L xn 2 − x2 x21 − x1 M M M L xnp − x p xn1 − x1
2 R = x:D ( x G) ≤m D x G , i =1Lm , i in 2 , j , , i j≠ i
{
(
)}
x 和总体 G 之间的马氏距离为: 之间的马氏距离为:
D ( x i ) =( x−µ ) V ,G i
2 i

− 1
( x−µ ) , i
i =12 ,m , L

第二节判别分析

第二节判别分析

判别式系数
确定的原则:使两组间的组
间离差最大,而每个组的组内离差最小。
(二)费歇判别的数学原理
假设线性判别函数: 把两个总体的所有样品代入上面的判别式
分别对上面两式左右相加,再除以样品个数, 可得两个总体的重心:
最佳的线性判别函数:两个重心的距离越 大越好,两个组内的离差平方和越小越好。
组间差异为:
16.7
22.8
29.3 3.017 26.6
7
22.0
7.8
9.9
10.2
12.6
17.6 0.847 10.6
8
48.4
13.4
10.9
9.9
10.9
13.9 1.772 17.8
9
40.6
19.1
19.8
19.0
29.7
39.6 2.449 35.8
10
24.8
8.0
9.8
8.9
11.9
16.2 0.789 13.7
(
)
41
XTX是对称矩阵,线性代数理论告诉我们,对于一个 实对称矩阵,必 存 在一个正交矩阵A,能够将该矩 阵化成标准型,即:
42
正交矩阵A的第 i 列向量刚好可取为主成分向量 线性表达式系数:
那么矩阵
的特征向量和特征值分别为
挑选主要向量的标准:向量的大小,即向量的模作 为衡量依据。
43
由线性代数知:
33
如果这些数据形成一个椭圆形状的点阵(这在变量的
二维正态的假定下是可能的),那么这个椭圆有一个
长轴和一个短轴。
x2
F 1
F2
•• •••
•• •• •
•• • • •

判别分析

判别分析
判别分析
一、基本含义
1.判别分析的含义 判别分析是多元统计分析中用于判别样品所属类型的一 种统计分析方法,它所要解决的问题是在一些已知研究对象 用某种方法已分成若干类的情况下,确定新的观测数据属于 已知类别中的哪一类。 判别分析与聚类分析不同。判别分析必须事先知道需要 判别的类型和数目,并且要有一批来自已知类型的样品,才 能建立判别式(判别函数),然后对新样品进行判别归类。 对于聚类分析来说,一批给定样品划分的类型和数目事先都 不知道,需要通过聚类分析以后才能确定。此外,判别分析 还能够对于未知分组类型的个案进行判别分组。因此它带有 “预测”的功能。这是聚类分析所不组别分类标准要尽可能有可靠性。
② 自变量(判别指标)是重要的属性,初始分析之数目不能太少,亦即
研究者要从许多不同的特性中搜集统计数据,统计分析的平均数与加权总 和会决定它们的判别能力,加权总和即是预测变量间的线性组合,此线性 组合就是所谓的“判别函数”(discriminant function)。 ③ 如果个别变量与加权总和有显著的判别能力,则可以将有效的观察值
归类为组别中的一组,此归类的正确率愈高愈好。
④ 挑选具有重要特性而又有判别能力的变量,达到以最少变量而有高判 别力的目标。
归类为组别中的一组,此归类的正确率愈高愈好。
④ 挑选具有重要特性而又有判别能力的变量,达到以最少变量而有高判 别力的目标。
判别分析
二、判别分析的过程 ① 事前组别分类标准要尽可能有可靠性。
② 自变量(判别指标)是重要的属性,初始分析之数目不能太少,亦即
研究者要从许多不同的特性中搜集统计数据,统计分析的平均数与加权总 和会决定它们的判别能力,加权总和即是预测变量间的线性组合,此线性 组合就是所谓的“判别函数”(discriminant function)。 ③ 如果个别变量与加权总和有显著的判别能力,则可以将有效的观察值
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

判别分析1.判别分析的适用条件(1)自变量和因变量间的关系符合线性假设。

(2)因变量的取值是独立的,且必须是事先就己经确定。

(3)自变量服从多元正态分布。

(4)所有自变量在各组间方差齐,协方差矩阵也相等。

(5)自变量间不存在多重共线性。

2.违背条件时的处理方法(1)当样本的多元正态分布假设不能满足的时候采取的措施和方法如下:<>如果数据的超平面是若干分段结构的话,采用分段判别分析。

<>如果数据满足方差和协方差的齐次性可以采用距离判别分析、经典判别分析、贝叶斯判别分析中的任何一种,因为此时三者是等价的,建议使用经典判别分析。

<>如果数据不满足方差和协方差的齐次性,则采用经典判别分析、非参数判别分析、距离判别分析,这些方法无此适用条件。

<>进行变量变换。

(2)方差和协方差的齐次性不能满足的时候可以采取的措施如下:<>增加样本,这有时可以使其影响减小。

<>慎重的进行变量变换。

<>采用经典判别分析、非参数判别分析、距离判别分析,这些方法无此适用条件。

<>在合乎总体实际情况的前提下,保证各个分组的样本量一样,判别分析中分组之间样本量一样可以带来以下几个好处:使得结果与方差齐次性假设不会偏离得太大;F检验时第二类错误(实际上为虚假的条件下正确的拒绝了原假设的概率)得到减小;使得均值更加容易比较和检验。

<>要是样本服从多元正态分布,采用二次判别,但是应该注意到二次判别分析没有计算判错率和统计检验的公式。

(3)存在多重共线性时可以采取的措施如下:<>增加样本量。

<>使用逐步判别分析。

<>采用岭判别分析。

<>对自变量进行主成分分析,用因子代替自变量进行判别分析。

<>通过相关矩阵结合实际的理论知识删去某些产生共线性的自变量。

显然,上述措施和线性回归中对共线性的处理方式是非常类似的。

(4)当线性假设被违反的时候可以采取的措施如下:<>采用二次判别分析。

<>K最近邻判别分析或核密度判别分析两种非参数判别分析。

<>离散型判别分析或混合型判别分析。

3.典型判别分析的基本原理试图找到一个由原始自变量组成的线性函数使得组间差异和组内差异的比值最大化。

所谓Fisher判别法,就是一种先投影的方法。

考虑只有两个(预测)变量的判别分析问题。

假定这里只有两类。

数据中的每个观测值是二维空间的一个点。

见图(下一张幻灯片)。

这里只有两种已知类型的训练样本。

其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。

按照原来的变量(横坐标和纵坐标),很难将这两种点分开。

于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。

可以看出,如果向其他方向投影,判别效果不会比这个好。

有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。

4.例题:鸢尾花数据(花瓣,花萼的长宽) 5个变量:花瓣长(slen),花瓣宽(swid), 花萼长(plen), 花萼宽(pwid), 分类号(1:Setosa, 2:Versicolor, 3:Virginica)结果分析:结果的判别可以有两种方式进行,一种通过判别函数进行判定。

详细输出内容如下所示:表13.1给出了判别函数的特征根以及判别指数,本例中只提取了两个判别函数(Funxtion1,2),且绝大部分信息都在第一个判别函数上(”% of Variance:”99%),上文中发现第二个判别函数(”% of Variance:”1%)携带的信息量很少。

表13.2就是进一步对特征根的显著性检验,实际是间接的检验判别函数有无统计学意义,其原假设是:各分组的均值直向量相等,分析结果显示两个判别函数均很有意义,第二个函数还是值得保留的。

-4-20246-4-3-2-10123表13.3为两个判别函数中各个变量的标准化系数,可用来判断两个函数分别主要受哪些变量的影响较大。

同时,知道了该系数就可以写出标准化的判别函数式。

本例的两个典型判别函数式如下:D1=-0.346Xz花尊长-0.525 Xz花尊宽+0.846 Xz花瓣长+0.613xz花瓣宽D2=0.039Xz花尊长+0.742 Xz花尊宽-0.386 Xz花瓣长+0.555 Xz花瓣宽变量名前加z表明是标准化以后的数值。

实际上两个函数式计算的是各观测在各个判别维度上的坐标值,这样,就可以通过这两个函数式计算出各观测的具体空间位置。

另外,这里的标化判别函数实质上和典型相关分析中得到的典型变量的转化公式等价。

表13.4给出的是判别得分和自变量之间的相关系数,有些书也称它为组内结构系数/判别负载(Structure correlations/Discriminant loadings.),SPSS在结果中用"*"标识出了每个自变量中与每组判别得分中相关系数最大的一个函数,这有些类似于主成分分析中的成分结构。

由表格可见,第一判别函数主要与"花瓣长"这个自变量相关,另三个自变量则主要与第二判别函数相关。

由于前面的结果己经表明第一个判别函数携带了绝大多数判别信息,这提示我们可能"花瓣长"这个变量在判别分析中起了主要作用。

表13.5给出的是各组的判别函数的重心,或者说是各组的判别得分的均值向量。

前面的判别函数的检验就是分别检验这两个向量在各组是否相等。

在得知各类别重心后,只需要为每个待判个案求出判别得分,然后计算出该个案的散点离哪一个中心最近,就可以得到该个案的判别结果了。

上面给出的就是默认情况下的全部分析结果,可见其中的判别函数使用的是标化变量,相对而言使用不是非常方便,如果希望得到直接使用原始变量的判别函数,则可以在Statistic子对话框中选择最左下方的Unstandarized框,可以得到如表13.6所示的输出。

表13.6给出的就是使用原始变量的判别函数,式中有常数项,可写出表达式如下: D1=-2.526-O.063 x花尊长-0.155 x花尊宽+0.196 x花瓣长+0.299 x花瓣宽D2=-6.987+O.007 x 花尊长+0.218 x 花尊宽-0.089 x 花瓣长+0.271 x 花瓣宽03.2)另一种判别结是以图形化方式展示,可以使用Classify 子对话框中的Plot 框组进行结果的图形化展示,如图13.3所示,三个复选框分别用于输出联合分布图、单独分布图和领域图(Territorial Map ),上图显示为领域图的结果,其中Function1为横轴,Function2为纵轴,而整个图形中以数字1,数字2,数字3把图形划分为3个区域。

例如当第一个函数值为4时,如果第二个函数值为一4,则该案例应被判为2类;如果值为4,则应为3类。

因此第二个函数仍然应当在判别中使用,以上图形观察的结果和前面统计表格的结果完全一致。

最为关键的是判别分析主要是用来将未知类别的数据判定其所归属的类别,比如,现在检测到四个自变量的取值分别为50、33、14,2,我们要判定它到底归属于哪一类。

其实方法很简单,在执行上述所有的操作前,将需要预测的数据添加至原始数据的最后一列,当然此记录的组信息是空的,然后按照执行步骤执行一遍。

此时重要的结果不再是显示在OUTPUT 中,而是需要我们返回到数据窗口,现在的数据窗口一定会多一列(Dis_1),该列显示即为判定的分组信息,最后一列的分组信息也会在此项中显示(1)。

但是一定要注意,如果需要判定一定要在”save —勾选Predicted group membership ”。

区域1 区域2 区域3原理在于将4个自变量的取值分别为50、33、14,2,将这些数值代入未标化的判别公式,可以得到坐标值如下:D1=-2.526-0.063 x50-0.155 x33+0.196 x 14+0.299 x2=-7.499D2=-6.987+0.007 x50+0.218 x33-0.089 x 14+0.271 x2=-0.1475.判别效果的验证Classify子对话框左下角的Display框组用于对判别分析的效果进行验证。

其中Casewise框用于列表输出所有案例的判别情况,summary框给出当前样本判别效果汇总表,leave-one-out框用于给出交互验证的判别验证结果,表13.7的上半部分就是采用回代法得到的判别信息,其实等价于且summary刚毛花全部正确预测,则另两种花则存在错判,红圈处标出的为出错的样本。

下半部分就是用交互印证法得到的判别信息,最后也会给出错误率。

附注(其他选项说明):选择观测量如果希望使用一部分观测量进行判别函数的推导,而且有一个变量的某个值可以作为某些观测量的标识,则用Select功能进行选择。

操作方法是,单击“Select”按钮展开小选择框,在“Vaiable:”后面矩形框中输入该变量的变量名,在“Value:”后面输入标识参与分析的观测量所具有的该变量值。

一般均使用数据文件中的所有合法观测量。

此步骤可以省略。

选择分析方法在主对话框中自变量矩形框下面有两个选择项,被选中的方法前面的圆圈中加有黑点。

这两个选择项是选择判别分析方法的。

(1)Enter independent together当你认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。

选择该项将不加选择地使用所有自变量进行判别分析,建立全模型。

不需要进一步进行选择。

(2)Use Stepwise method当你不认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。

因此根据对判别贡献的大小进行选择。

当鼠标单击该项时,"Method"按钮加亮。

可以进一步判别分析方法。

单击“Method”按钮,展开“Stepwise method”对话框(子对话框)如下图所示。

①选择进行逐步判别分析的方法选择判别分析方法在Method组的矩形框中进行。

可供选择的判别分析方法有:●Wilks'lambda 使Wilk的统计量最小化法。

●Unexplained variance 使各类不可解释的方差和最小化法。

●Mahalanobis'distance 使最近两类间的 Mahalanobis距离最大化法。

●Smallest F ratio。

使任何两类间的最小的F值最大化法。

●Rao' V 使 RaoV统计量最大化。

可以对一个要加入到模型中的变量的V值指定一个最小增量。

选择此种方法后,应该在该项下面的"V to dntce'"后的矩形框中输这个增量的指定值。

相关文档
最新文档