第十七章判别分析1
判别分析
具体方法为待定系数法: ①将A、B两个总体的全部个案观测值代入方程,并求其平均值和离差 平方和。 ②求F值,当F取极大值的时候,将表示有组间差异最大,组内差异最小。 因此可以通过令F的一阶偏导数等于零。 ③得到k个关于Ci 的线性方程组,方程组的解就是判别函数的各个系数。 对于任意个案代入函数中,当D的数值大于0,则该个案隶属于A总体。 当D的数值小于0,则该个案隶属于B总体。如果D等于0,则待判。 ⒉判别方法 SPSS系统提供的判别方法有马氏距离判别法、贝叶斯概率判别法以及费 氏多类判别模型法。 ⑴马氏(Mahalamobis)距离判别法 马氏距离判别法的思想就是建立马氏距离,当被判断个案距离哪个总体中 的马氏距离最小,该个案就隶属于这个总体。假定有A、B两个总体,则: X∈A 若d(x,A)<d(x,B) X∈B 若d(x,A)>d(x,B) 待判 若d(x,A)=d(x,B)
... ... ... ...
x1k ( a ) x2 k (a ) ... x mk ( a )
{xnk(b)}=
x11 (b ) x 21 ( b ) ... x (b ) n1
x12 ( b ) x 22 (b ) ... x n 2 (b )
⑵贝叶斯(Bayes)概率判别法 贝叶斯概率判别法是根据被判断个案应当归属于出现概率最大的总体 或者归属于错判概率最小的总体的原则进行判别的。 出现概率最大的总体指在全部N个个案中,属于各个不同总体的个案 数分别为:n1、n2、n3…,则各自的概率可以简单计算为:
n1 n2 n3 P ( G 1) = 、 P (G 2 ) = 、 P (G 3) = ... N N N
P(Gi)为先验概率。被判断的个案属于先验概率最大总体的概率应 当高一些。先验概率反映了样本分布的总体趋向特性。当不能确定一个个 案属于若干个总体中的哪一个时,归属大概率总体的概率显然会比归属小 概率总体的概率高。 另外,考虑到某些个案的特殊性,还应当具体分析各个个案的趋向特 性。因为个案趋向于各个总体的概率可能不同。 例如:对儿童某行为应隶属于心理发展问题的概率远远超过隶属于生 理发育问题的概率,即使样本数量很大时也基本如此,则将该行为判断为 心理问题的正确性就大。
判别分析_精品文档
判别分析导言判别分析是统计学中一种常用的数据分析方法,用于区分不同群体或类别之间的差异。
它通过寻找最佳的分类边界,帮助我们预测或判定未知样本的分类。
判别分析常用于模式识别、数据挖掘、生物学、医学等领域。
本文将介绍判别分析的基本概念、应用领域和算法。
一、判别分析的基本概念判别分析旨在通过构造合适的判别函数,将不同群体或类别的样本区分开来。
判别函数的建立是判别分析的核心任务,而判别函数的类型通常根据问题的特点来选择。
常见的判别函数有线性判别函数、二次判别函数、贝叶斯判别函数等。
判别分析的目标是使得样本在不同类别的判别函数值有较大差异。
二、判别分析的应用领域1. 模式识别判别分析在模式识别中的应用非常广泛。
通过判别分析,我们可以建立能够识别不同模式的模型。
例如,在人脸识别任务中,我们可以使用判别分析来建立一个分类器,能够将不同人脸的图像正确分类。
2. 数据挖掘在数据挖掘领域,判别分析可以帮助我们发现变量之间的关系,并进行预测。
通过对已有数据进行判别分析,我们可以预测未知样本的分类。
例如,在市场营销中,通过对消费者进行判别分析,我们可以预测消费者的购买行为,从而制定更精准的营销策略。
3. 生物学和医学判别分析在生物学和医学领域中也有广泛的应用。
例如,在癌症诊断中,通过对患者的临床数据进行判别分析,我们可以建立一个分类器,能够判断该患者是否患有癌症。
三、判别分析的算法判别分析的算法根据问题的特点和要求选择。
下面介绍两种常见的判别分析算法:1. 线性判别分析(LDA)线性判别分析是一种常见且简单的判别分析算法。
它的核心思想是通过将高维数据映射到低维空间中,使得不同类别的样本在投影空间中有较大的差异。
在LDA算法中,我们需要计算类内散度矩阵和类间散度矩阵,并求解其特征值和特征向量,从而确定投影向量。
2. 二次判别分析(QDA)二次判别分析是一种更为复杂的判别分析算法。
它假设不同类别的样本的协方差矩阵不相等,即每个类别内部的变化程度不同。
判别分析完整课件
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di
判别分析
多变量统计分析方法
01 简介
03 判别函数
目录
02 基本思想 04 建立方法
05 判别方法
07 应用
目录
06 验证方法
基本信息
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的 一种多变量统计分析方法。
其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待 定系数,并计算判别指标。据此即可确定某一样本属于何类。
3)Fisher判别:亦称典则判别,是根据线性Fisher函数值进行判别,通常用于梁祝判别问题,使用此准则 要求各组变量的均值有显著性差异。该方法的基本思想是投影,即将原来在R维空间的自变量组合投影到维度较低 的D维空间去,然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小,而不同类间投影的离差 尽可能大。Fisher判别的优势在于对分布、方差等都没有任何限制,应用范围比较广。
判别方法
判别方法
判别方法是确定待判样品归属于哪一组的方法,可分为参数法和非参数法,也可以根据资料的性质分为定性 资料的判别分析和定量资料的判别分析。此处给出的分类主要是根据采用的判别准则分出几种常用方法。除最大 似然法外,其余几种均适用于连续性资料。
1)最大似然法:用于自变量均为分类变量的情况,该方法建立在独立事件概率乘法定理的基础上,根据训 练样品信息求得自变量各种组合情况下样品被封为任何一类的概率。当新样品进入是,则计算它被分到每一类中 去的条件概率(似然值),概率最大的那一类就是最终评定的归类。
基本思想
基本思想
根据判别中的组数,可以分为两组判别分析和多组判别分析; 根据判别函数的形式,可以分为线性判别和非线性判别; 根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等; 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
判别分析的基本原理
判别分析的基本原理和模型一、判别分析概述 (一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher 准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法 (一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i 类的重心距离最近,就认为它来自第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211该总体的样本指标平均值为:()()()A x A x A x p 21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211该总体的样本指标平均值为:()()()B x B x B x p 21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21 ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
判别分析-精选文档
训练样本的质量与数量至为重要。每一个 体所属类别必须用“金标准”予以确认; 解释 变量(简称为变量或指标)X1,X2,…, Xp必须 确实与分类有关; 个体的观察值必须准确;个 体的数目必须足够多。
2019年2月28日8时33分
厚德载物
自强不息
10
生物医学研究的统计方法
训练样本的数据内容与符号 ─────────────────────────────────── 解释变量 个体号 ─────────────────────── 类别变量(Y) X1 X2 … Xj … XP ─────────────────────────────────── 1 X11 X12 … X1j … X1P y1 2 X22 X22 … X2j … X2P y2 … … … … … … … … i Xi1 Xi2 … Xij … XiP y3 … … … … … … … … n Xn1 Xn2 … Xnj … XnP yP ────────────────────────────────────
前瞻性考核(组外考核)
得到总符合率,特异性,敏感性,假阳性率和假阴性 率。
2019年2月28日8时33分
厚德载物
自强不息
7
生物医学研究的统计方法
(5)实际应用 未知类别样品的判别归类。 如有某病人,用显微分光光度计对其细胞进行检测, 得到X1,X2和X3的值。将X1,X2,X3值,代入判别函数 Y=X1+10X2+10X3; 可得Y值,Y>100则判断为癌症,Y<100则判断为非癌症。
2019年2月28日8时33分
厚德载物
自强不息
2
生物医学研究的统计方法
(1)有无某种疾病 例:计算机用于胃癌普查,用于中风预报。 (2)疾病的鉴别诊断 例:计算机用于对肺癌,肺结核和肺炎进行鉴别诊断。 (3)患有某疾病中的哪一种或哪一型 例:鉴别诊断单纯性或绞窄性肠梗阻。 鉴别诊断阑尾炎中的卡他性,蜂窝织炎,
判别分析
P273
• 4、classify的设定
用于分类的先 验概率
选择计算时的 协方差矩阵 输出判别分析正确 或错误分组的个数 交叉验证
• 结果:
标准化的典型判别函数的系数
Fisher线性判别函数
关于不同判别函 数的作用
• 例:有一个样本,四个自变量的取值分别为 50、33、14,2,判定它到底归属于哪一类。 • 第一种:非标准化的辨别函数: • Step1: • D1=-2.526-0.063 x50-0.155 x33+0.196 x 14+0.299 x2=-7.499 • D2=-6.987+0.007 x50+0.218 x33-0.089 x 14+0.271 x2=-0.147 • Step2:领域图
逐步分析方法。当认为不是 所有自变量都能对观测量特 性提供信息时,选择该项, 因此需要判别贡献的大小再 进行选择。选中该单选按钮 时,“Method”按钮被激活, 可以进一步选择判别分析方 法。
• 3、statistic的设定
自变量的分组及平均数 与标准差 自变量的单因素方差分析 组间协方差矩阵的检验
判别分析
• §1. 基本原理 • §2. 基本步骤 • §3. 实例分析
§1. 基本原理
• 定义:判别分析先根据已知类别的事物的性质 (自变量),建立函数式(自变量的线性组合, 即判别函数),然后对未知类别的新事物进行 判断以将之归入已知的类别中。 • 判别分析是一种有效的对个案进行分类分析的 方法。和聚类分析不同的是,判别分析时,组 别的特征已知。 有学者在研究中提出,可以利 用判别分析来对聚类分析结果的准确性进行检 验。聚类
• 练习:iris.Sav
• 作业:4-26.sav
判别分析
判别分析判别分析就是根据所研究的个体的观测指标来推断该个体所属类型的一种统计方法。
它的统计模型的语言描述就是:设有k 个总体k G G G ,,,21 ,希望建立一个准则,对任意给定的一个样本x ,依据这个准则就能判断它是来自哪个总体。
依据研究问题的角度和方法分类,现有的判别分析的方法有距离判别,Fisher 判别和Bayes 判别。
§1 距离判别一、两总体情况设有两个总体 21,G G 和一个p 维样品x .我们以x 距离这两个总体中心的远近来判断其归属。
设21,G G 的协差阵分别为21,∑∑,选用马氏距离,则x 距21,G G 的距离分别为)()(),(111112μμ-∑'-=-x x G x d)()(),(212222μμ-∑'-=-x x G x d . 于是判别准则即可叙述为⎩⎨⎧>∈≤∈),(),(,),(),(,2212222121G x d G x d G x G x d G x d G x 若若当∑=∑=∑21时,)(2)()2/)((2)()()()(),(),(211212121112212x W x x x x x G x d G x d -=-∑'+--=-∑'---∑'-=----μμμμμμμμ判别准则可叙述为⎩⎨⎧<∈≥∈0)(,0)(,21x W G x x W G x 若若易见,)(x W 是x 的线性函数。
这就使得判别过程比较简单。
几点说明:1、 按以上准则(最小距离准则)进行判别分析可能会产生误判。
2、 当两个总体的均值十分接近时,无论用什么办法,误判概率都较大,这时判别是无意义的。
所以在判别之前应对两总体的均值进行显著性检验。
3、 由于落在μ附近的点误判概率比较大,有时可划出一个待判区域,如取)](51),(51[],[2121μμμμμμ-+--=d c作为待判区域。
4、 上述判别准则并未涉及具体的分布类型,只要二阶矩存在就行。
判别分析课件
断
○○○○○●●●●
界
○○○●●●●
值
○○●●●
○●●●
X平面
X平面
判别分析的应用: 1、用于临床上疾病的诊断和鉴别诊断。 2、疾病发病的预测 3、病人预后的预测
判别分析的分类
1、按类别分:二类判别 多类判别
Fisher、Bayes
2、方法:Fisher判别分析(距离判别) Bayes判别分析(概率判别) 非参数判别分析
详细资料见:皮质醇.xls
原始数据
整理数据
分析方法
分析方法
分析方法
Wilks λ统计量最小化 相邻两组马氏距离最大化
组间不可解释方差和最小化
分析方法
分析方法
分析结果
判别函数式:
新病人的数据分别代入,哪个值 大就判归哪种类型。
Y1=0.222ACTH8+3.985转移+8.595FHIT+4.744Ki-67-20.014 Y2=0.080ACTH8+3.647转移+6.246FHIT+4.239Ki-67-8.848 Y3=0.019ACTH8+14.462转移+4.153FHIT+9.483Ki-67-11.968
常数项
回归系数
构造判别函数式:
p yj|x 1 e 1 j x 1 e 1 j 1 x
j=1,2,3,….
新病人回代,哪个值大判归哪类。
Y=0的概率:
P y 0 1 e 5 .1 7 2 .3 2F 84 H 1 1 .7IK 5 T 6 8 i 2 7 .0P 56 CNA
判别分析的根本原理:
Y平面
诊断界值
○○○○○○○● ○○○○○○● ○○○○○●●●● ○○○●●●● ○○●●● ○●●●
《判别分析》课件
在金融领域的应用
信用评分
利用判别分析模型,通过借款人 的特征和历史表现,预测其未来 违约风险,为金融机构提供信贷
决策依据。
市场风险评估
判别分析用于评估金融市场风险 ,通过分析市场数据和变量,预 测市场走势,帮助投资者做出合
理决策。
投资组合优化
利用判别分析对投资组合进行优 化,通过评估不同资产的风险和 回报,为投资者提供最佳资产配
对判别分析的未来展望
改进算法
针对判别分析的假设严格问题,未来研究可以尝试改进算法,放宽 假设条件,使其更适用于实际数据。
结合其他技术
可以考虑将判别分析与其它机器学习算法相结合,如神经网络、支 持向量机等,以提高分类性能和泛化能力。
拓展应用领域
随着大数据时代的到来,判别分析在各个领域的应用越来越广泛,未 来可以进一步拓展其应用领域,解决更多实际问题。
在市场营销中,判别分析可用于市场 细分,根据消费者的购买行为、偏好 和需求等因素,将市场划分为不同的 细分市场,帮助企业制定更加精准的 市场策略。
广告投放优化
通过判别分析对广告投放效果进行评 估和优化,基于历史数据和实时监测 数据,分析不同广告渠道和创意的表 现,提高广告投放的效率和效果。
06 判别分析的案例分析
金融领域的判别分析案例
信用风险评估
利用判别分析对银行客户进行信用风险评估,根据客户的历 史表现和其他相关信息,预测其未来违约的可能性,帮助银 行制定更加精准的信贷政策。
股票市场预测
通过判别分析对股票市场走势进行预测,基于历史数据和市 场信息,构建预测模型,以指导投资者进行投资决策。
1. 单变量判别函数
基于单个特征的判别函数。
2. 多变量判别函数
判别分析1_图文
图1由前面分析发现,协方差矩阵不等,可以考虑采用Separate-groups协方差矩阵。
输出结果表1-10:分類結果a被解释变量預測的群組成員資格總計Setosa 鸢尾花Versico-lor 鸢尾花Virginica 鸢尾花原始計數Setosa 鸢尾花50 0 0 50 Versico-lor 鸢尾花0 47 3 50Virginica 鸢尾花0 1 49 50 %Setosa 鸢尾花100.0 .0 .0 100.0 Versico-lor 鸢尾花.0 94.0 6.0 100.0 Virginica 鸢尾花.0 2.0 98.0 100.0a. 97.3% 個原始分組觀察值已正確地分類。
图2分類處理摘要已處理31 已排除遺漏或超出範圍群組代碼0至少一個遺漏識別變數0已在輸出中使用31群組的事前機率地区在前分析中使用的觀察值未加權加權1 .3332 2.0002 .333 2 2.0003 .333 1 1.000總計 1.000 5 5.000分類函數係數地区1 2 3人均食品支出.014 -.004 .021 人均衣着支出-.058 .024 -.092 (常數)-10.708 -3.645 -19.157 費雪 (Fisher) 線性區別函數图4 分類結果a地区預測的群組成員資格總計1 2 3原始計數 1 2 0 0 22 0 2 0 23 1 0 0 1未分組的觀察值8 18 0 26% 1 100.0 .0 .0 100.02 .0 100.0 .0 100.03 100.0 .0 .0 100.0未分組的觀察值30.8 69.2 .0 100.0a. 80.0% 個原始分組觀察值已正確地分類。
由表1-10可以看出,通过判别函数预测,有146个观测是分类正确的,其中,y=1组50个观测全部被判对,y=2组50个观测中有47个被判对,y=3组50个观测中有49个被判对,从而有97.3%的原始观测被判对。
判别分析
2. Fisher判别法(先进行投影)
• Fisher判别法就是一种先投影的方法。 • 考虑只有两个(预测)变量的判别问题。 • 假定只有两类。数据中的每个观测值是二维空间的一个点。见图。 • 这里只有两种已知类型的训练样本。一类有38个点(用“o”表示),另一类有44
个点(用“*”表示)。按原来变量(横坐标和纵坐标),很难将这两种点分开。
• 从该表看,我们的分类能够100%地把训练数据的每一个观测值分到其本来的类。 • 该表分成两部分;上面一半(Original)是用从全部数据得到的判别函数来判断每一个
点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。 • 下面一半(Cross validated)是对每一个观测值,都用缺少该观测的全部数据得到的
1
30
3.00
0
0
30
30
%
1.00
100.0
.0
.0
100.0
2.00 3.00
6.7
90.0
3.3
100.0
.0
.0
100.0
100.0
a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all
开始就知道这些训练数据的各个观测值的归属,但即使是这些训练样本的观测值(企业)
按照这里推导出的分类函数来分类,也不一定全都能够正确划分。
Disc.txt例子
• 下面就是对我们的训练样本的分类结果(SPSS):
判别分析 (1)
a ′ Aa = 1
因此我们的问题转化为求条件极值问题。 因此我们的问题转化为求条件极值问题。
二、线性判别函数的求法 由Lagrange乘数法求条件极值,令 乘数法求条件极值,
φ (a ) = a′Ba − λ (a′Aa − 1)
由矩阵的微商: 由矩阵的微商: ∂φ = 2 ( B − λ A) a = 0
1 (i) −1 (i) ci ai = (S −1X (i) )′ 称为判别系数向量,= − (X )′S X ] Yi (X)称为线性判别函数, 称为线性判别函数, 称为判别系数向量, 2 称为线性判别函数
称为常数项。 称为常数项。 若考察这两个马氏距离之差,经计算可得: 若考察这两个马氏距离之差,经计算可得:
n
设投影向量为a 设投影向量为 ,按照一元方差分析的思想 投影后的组间离差平方和为: 投影后的组间离差平方和为:
B0 =
t =1
∑ n t ( a ′X ( t ) − a ′X ) 2
k t =1
k
= a ′[ ∑ n t ( X ( t ) − X ) ( X ( t ) − X ) ′] a
2 2 2 2
新的样本: 应该属于哪一类? 新的样本: X = ( x1, x2 ,⋯ x p ) ,问X 应该属于哪一类?
表示X与第 类重心(均值)的距离。 类的 与第i类重心 设 D( X , Gi ) 表示 与第 类重心(均值)的距离。第i类的 重心为 :
( X (i ) = ( x1 i ) ,⋯, x (i ) ) p
1 1 (1) = ∑Xj n1 j =1 1 2 ( 2的样本均值向量:
( 2)
⋯⋯ 1 k (k ) (k ) X = ∑X nk j =1 j
判别分析
1
x 2
2
若 x 1 , 则显然判 x 1 , 若 x 2 , 则显然判 x 2 , 下面讨论 1 x 2 , 此时有
d ( x, 1 ) d ( x, 2 ) x 1
1
2 x 1 2 (x * ) , 2 1 2
i i i i
由此得:
ˆ1
ˆ
n1
1 1 n1 1 ˆ2 xj ˆ x 1 , n2 n1 j 1
x x ห้องสมุดไป่ตู้
j 1
2 j 2
n2
1 (W1 W2 ) n1 n2 2
n2
其中 W1 ( xj1 x 1 )( xj1 x 1 )T , W2 ( xj2 x 2 )( xj2 x 2 )T 。
从而 u ( x) ~ N (0.5 2 , 2 ) ,所以
0 0.5 2 P(2 1) P(u ( x) 0 x 1 ) (0.5)
同理得: P(1 2) P( u ( x) 0 x 2 ) (0.5) 例 1 设判别因子只有一个, 即 p 1, 且假定 i ~ N ( i , 2 ) (i 1, 2) , 则判别函数为:
记 2 ( 1 2 )T 1 ( 1 2 ) ,则
aT ( 1 2 ) ( 1 2 )T 1 ( 1 2 ) 2
a T a ( 1 2 )T 1 1 ( 1 2 )
( 1 2 )T 1 ( 1 2 ) 2
判别分析
§1. 引言 在生产、 科学研究及日常生活中经常遇到需要对某一研究对象属于哪种情况 作出判断。如在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代, 由采样分析出的多种成份来判别此地是有矿还是无矿,是铜矿还是铁矿。在市场 预测中,根据以往调查所得的种种指标,判断下季度产品是畅销、平销或滞销。 在医疗诊断中,根据患者的不同症状和化验结果来诊断其患病类型等等。 从概率观点看,判别问题可以归结为如下模型:设共有 G 个总体:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
交叉核实法(也应属于前瞻性估计):
顺序剔除一个样品,用n-1个样品建立判别 函数(共建立了n个不同的判别函数;分别用每 一个判别函数来判别剔除的那个样品,计算总 判别正确率。
9
(5)实际应用 ) 未知类别样品的判别归类。 未知类别样品的判别归类。 如有某病人, 如有某病人,用显微分光光度计对其细胞进行 检测,得到X 的值。 检测,得到 1,X2和X3的值。将X1, X2, X3值,代 入判别函数 Y=X1+10X2+10X3; 可得Y值 则判断为癌症, 可得 值,Y>100则判断为癌症,Y<100则判断为 则判断为癌症 则判断为 非癌症。 非癌症。
第十七章 观察对象的分类分析 ---------判别分析 ---------判别分析 (Discriminant Analysis) Analysis)
1
事物分类的统计方法: 事物ห้องสมุดไป่ตู้类的统计方法:
主要有聚类分析和判别分析 主要有聚类分析和判别分析 聚类分析:事物分类不清楚, 聚类分析:事物分类不清楚,分几类不 清楚,目的希望将事物进行分类( 清楚,目的希望将事物进行分类(探索性 研究)。 研究)。 判别分析:事物的分类是清楚的, 判别分析:事物的分类是清楚的,目的 是通过已知分类建立判别函数, 是通过已知分类建立判别函数,预测新的 观察对象所属类别。 观察对象所属类别。
16
协方差分析:将对应变量Y 协方差分析:将对应变量Y有线性影响 但未加控制或难以控制的定量变量X 但未加控制或难以控制的定量变量X看 做协变量, 化为相等后比较各组Y 做协变量,把X化为相等后比较各组Y 的修正均数, 的修正均数,是线性回归与方差分析结 合起来的一种统计分析方法。 合起来的一种统计分析方法。模型中无 任何变量时即为方差分析。 任何变量时即为方差分析。
Y =C +C X +C X +L+C X
m
…,g) C jk (j=0,1 2,…,m; k=1,2, …,g)为需要估 计的参数,用SAS的 DISCRIM过程可得到 计的参数, SAS的 DISCRIM过程可得到 这些参数的估计值。 这些参数的估计值。
22
当各类的协方差阵不等 当各类的协方差阵不等时,应计算非 协方差阵不等时 二次型Bayes判别函数 判别函数, SAS的 线性二次型 线性二次型Bayes判别函数,在SAS的 DISCRIM过程名后加选项 DISCRIM过程名后加选项POOL=TEST, 过程名后加选项POOL=TEST, SAS先经过检验 若各类的协方差阵满 SAS先经过检验,若各类的协方差阵满 先经过检验, 足齐性,则合并且给出线性Bayes判别函 足齐性,则合并且给出线性Bayes判别函 若各类的协方差阵不满足齐性, 数;若各类的协方差阵不满足齐性,则不 合并,且自动用非线性二次型Bayes判别 合并,且自动用非线性二次型Bayes判别 函数取代线性Bayes判别函数 判别函数。 函数取代线性Bayes判别函数。
18
∑ ∑ (X
=k S ij
= 1
g nk t
k) it −
(
(
= 1
Xi
k)
)( X
(
k) jt −
(
X
k) ) j
∑ ( n k − 1)
k =1
k) (k ) ,X Xi j
(
g
表示第k类中变量X 表示第k类中变量Xi、Xj的均
数;nk为第k类的例数 为第k
19
由
S C S C
11 21 m1
5
(2)收集数据,得到训练样本 )收集数据, 对于若干已明确诊断为癌症的110个病人和无癌症的 对于若干已明确诊断为癌症的 个病人和无癌症的 190个正常人均用显微分光光度计对细胞进行检测, 个正常人均用显微分光光度计对细胞进行检测, 个正常人均用显微分光光度计对细胞进行检测 得到X1, 和 的值 这就是训练样本。 的值。 得到 ,X2和X3的值。这就是训练样本。 X1 X2 X3 Y(类别) 例号 (类别) 1 1 2 2 0 2 2 5 6 1 ……… 300 3 3 3 0
7
(4)考核
该判别函数是否有实用价值还需要进行考核;如 该判别函数是否有实用价值还需要进行考核 如 考核的结果, 诊断符合率或误判概率小于 误判概率小于达到临 考核的结果,其诊断符合率或误判概率小于达到临 床要求(误判率小于0.1或 )则可应用于实践。 床要求(误判率小于 或0.2)则可应用于实践。 回顾性考核(组内考核) 回顾性考核(组内考核) 回顾性误判概率即将建立判别函数的样本回代 判别函数,逐例判别,计算P(A|B)、P(B|A) 判别函数,逐例判别,计算 、 前瞻性考核(组外考核) 前瞻性考核(组外考核) 总样本随机分为两部分,一般85% 总样本随机分为两部分,一般 %作为训练样 建立判别函数, %作为验证样本, 本,建立判别函数,15%作为验证样本,代入判别 函数评价判别效果。 函数评价判别效果。
4
用一个实例来说明判别分析的基本思想
判别分析步骤 欲用显微分光光度计对病人细胞进行检查以 判断病人是否患有癌症。 判断病人是否患有癌症。 (1)根据研究目的确定研究对象(样本)及 )根据研究目的确定研究对象(样本) 所用指标 例癌症病人和190例正常人 例正常人。 例:110例癌症病人和 例正常人。 例癌症病人和 指标: , 和 。 指标:X1,X2和X3。 X1: 三倍体的得分,X2: 八倍体的得分, 三倍体的得分, 八倍体的得分, X3: 不整倍体的得分。( 不整倍体的得分。( 。(0-10分) 分
在医学研究中经常遇到这类问题;例如 在医学研究中经常遇到这类问题;例如, 临床上常需根据就诊者的各项症状 体征、 各项症状、 临床上常需根据就诊者的各项症状、 体征、 实验室检查、 实验室检查、病理学检查及医学影像学资料 是否有某种疾病的诊断或对几种 等对其作出是否有某种疾病的诊断 等对其作出是否有某种疾病的诊断或对几种 可能患有的疾病进行鉴别诊断,有时已初步 可能患有的疾病进行鉴别诊断, 诊断为某种疾病, 诊断为某种疾病,还需进一步作出属该类疾 病中哪一种或哪一型的判断。 病中哪一种或哪一型的判断。
S C
(k )
1k
X
m
求解 C jk
(k=1,2,…,g)
20
计算
C
0k
(k ) 1 m C 0k = lg P(Y k ) − 2 ∑ C jk X j , k = 1, 2,..., g j =1
P (Y k ) 为第k类(k=1,2,…, 为第k
g)出现的先验概率 g)出现的先验概率, 出现的先验概率, 当不知道各类的先验概率时, 当不知道各类的先验概率时,一般取等概率 1/g,也可取频率 1/g,也可取频率 n k / N (当样本较大且无选择 性偏倚) 性偏倚)。
6
(3)用判别分析方法得到判别函数 ) 根据实测资料(训练样本 用判别分析方法可建立 根据实测资料 训练样本)用判别分析方法可建立 训练样本 判别函数,本例用Fisher判别分析方法得到 判别分析方法得到: 判别函数,本例用 判别分析方法得到 Y=X1+10X2+10X3 并确定判别准则为: 如有某病人的X 实测值, 并确定判别准则为 如有某病人的 1,X2,X3实测值, 代入上述判别函数可得Y值 则判断为癌症, 代入上述判别函数可得 值,Y>100则判断为癌症, 则判断为癌症 Y<100则判断为非癌症。 则判断为非癌症。 则判断为非癌症
17
2.建立 2.建立Bayes判别函数 建立Bayes判别函数
已知判别对象分为g 已知判别对象分为g类,有m个判别指标 Xj(j=1,2,…,m),要求各类的m个判别指标均 (j=1,2,…,m),要求各类的 要求各类的m 近似服从多元正态分布。 近似服从多元正态分布。当各类的协方差矩 阵相等时,计算合并协方差矩阵, 阵相等时,计算合并协方差矩阵,表示判别指 的合并协方差,按公式(17- 计算。 标Xi、Xj的合并协方差,按公式(17-1)计算。
12
建立在Bayes判别分析基础 判别分析基础 (4)逐步判别分析 建立在 ) 判别分析 它象逐步回归分析一样,可以在众多指标中挑 上,它象逐步回归分析一样 可以在众多指标中挑 选一些有显著作用的指标来建立一个判别函数, 选一些有显著作用的指标来建立一个判别函数 使方程内的指标都有显著的判别作用而方程外的 指标作用都不显著。 指标作用都不显著。 (5)logistic判别 常用于两类间判别。它不要 ) 判别 常用于两类间判别。 求多元正态分布的假设, 求多元正态分布的假设,故可用于各指标为数值 变量、分类或半定量的情况。 变量、分类或半定量的情况。 当各类的m个指标不服从多元 (6)非参数判别 当各类的 个指标不服从多元 ) 正态分布,应采用非参数判别分析。 正态分布,应采用非参数判别分析。
14
一、分析步骤
1.筛选判别指标 1.筛选判别指标 选择其中相互独立的部分指标 相互独立的部分指标建立判 选择其中相互独立的部分指标建立判 别函数. 别函数. 在建立判别函数之前, 在建立判别函数之前,要先进行逐步 判别分析,筛选出主要的判别指标, 判别分析,筛选出主要的判别指标,然 后再对主要的判别指标作判别分析。 后再对主要的判别指标作判别分析。 SAS中的 SAS中的STEPDISC过程用来筛选判别指标, 中的STEPDISC过程用来筛选判别指标 过程用来筛选判别指标, 用Wilks’ Lambda统计量及对应P值来衡量. Lambda统计量及对应 值来衡量. 统计量及对应P
13
Bayes判别 Bayes判别
主要用于定量数据的两类或多类判别 Bayes判别的思想 Bayes判别的思想: 判别的思想: 基于Bayes准则 基于Bayes准则,假定已知各类出现的 准则, 先验概率P ),且各类变量近似服从 先验概率P(Yk),且各类变量近似服从 多元正态分布,获得Bayes判别函 判别函数 多元正态分布,获得Bayes判别函数。计 算各个体出现的后验概率进行判别。 后验概率进行判别 算各个体出现的后验概率进行判别。