医学统计学第十八章判别分析
判别分析
具体方法为待定系数法: ①将A、B两个总体的全部个案观测值代入方程,并求其平均值和离差 平方和。 ②求F值,当F取极大值的时候,将表示有组间差异最大,组内差异最小。 因此可以通过令F的一阶偏导数等于零。 ③得到k个关于Ci 的线性方程组,方程组的解就是判别函数的各个系数。 对于任意个案代入函数中,当D的数值大于0,则该个案隶属于A总体。 当D的数值小于0,则该个案隶属于B总体。如果D等于0,则待判。 ⒉判别方法 SPSS系统提供的判别方法有马氏距离判别法、贝叶斯概率判别法以及费 氏多类判别模型法。 ⑴马氏(Mahalamobis)距离判别法 马氏距离判别法的思想就是建立马氏距离,当被判断个案距离哪个总体中 的马氏距离最小,该个案就隶属于这个总体。假定有A、B两个总体,则: X∈A 若d(x,A)<d(x,B) X∈B 若d(x,A)>d(x,B) 待判 若d(x,A)=d(x,B)
... ... ... ...
x1k ( a ) x2 k (a ) ... x mk ( a )
{xnk(b)}=
x11 (b ) x 21 ( b ) ... x (b ) n1
x12 ( b ) x 22 (b ) ... x n 2 (b )
⑵贝叶斯(Bayes)概率判别法 贝叶斯概率判别法是根据被判断个案应当归属于出现概率最大的总体 或者归属于错判概率最小的总体的原则进行判别的。 出现概率最大的总体指在全部N个个案中,属于各个不同总体的个案 数分别为:n1、n2、n3…,则各自的概率可以简单计算为:
n1 n2 n3 P ( G 1) = 、 P (G 2 ) = 、 P (G 3) = ... N N N
P(Gi)为先验概率。被判断的个案属于先验概率最大总体的概率应 当高一些。先验概率反映了样本分布的总体趋向特性。当不能确定一个个 案属于若干个总体中的哪一个时,归属大概率总体的概率显然会比归属小 概率总体的概率高。 另外,考虑到某些个案的特殊性,还应当具体分析各个个案的趋向特 性。因为个案趋向于各个总体的概率可能不同。 例如:对儿童某行为应隶属于心理发展问题的概率远远超过隶属于生 理发育问题的概率,即使样本数量很大时也基本如此,则将该行为判断为 心理问题的正确性就大。
判别分析Discriminant Analysis
(1)有无某种疾病 例:计算机用于胃癌普查,用于中风预报. (2)疾病的鉴别诊断 例:计算机用于对肺癌,肺结核和肺炎进行鉴别诊断. (3)患有某疾病中的哪一种或哪一型 例:鉴别诊断单纯性或绞窄性肠梗阻. 鉴别诊断阑尾炎中的卡他性,蜂窝织炎, 坏疽性和腹膜炎.
用一个实例来说明判别分析的基本思想
2. 判别分析步骤 欲用显微分光光度计对病人细胞进行检查以判断 病人是否患有癌症. (1)根据研究目的确定研究对象(样本)及所用指标 例:110例癌症病人和190例正常人. 指标:X1,X2和X3. X1: 三倍体的得分,X2: 八倍体的得分,X3: 不 整倍体的得分.(0-10分)
考虑事前概率可适当提高判别的敏感性. 事前概率可据于文献报道或以往的大样本研 究.但是困难在于事前概率往往不容易知道; 如果训练样本是从所研究的总体中随机抽取 的,则可用训练样本中各类的发生频率Q(Yj) 来估计各类别的事前概率q(Yj).如果事前概 率未知,而又不可以用Q(Yj)来估计q(Yj),就 只能将事前概率取为相等值,即取q(Yj)=1/g.
训练样本的数据内容与符号 ——————————————————————————————————— 解释变量 个体号 ——————————————————————— 类别变量(Y) X1 X2 … Xj … XP ——————————————————————————————————— 1 X11 X12 … X1j … X1P y1 2 X22 X22 … X2j … X2P y2 … … … … … … … … i Xi1 Xi2 … Xij … XiP y3 … … … … … … … … n Xn1 Xn2 … Xnj … XnP yP ————————————————————————————————————
判别分析 (3)
%白血病人数据和类别
sam_p=[14.0 5.1;13.2 4.4;11.0 4.5;11.3 3.8;9.1 4.5;10.3 3.2;13.0 3.6;12.4 5.4;10.3 4.2;9.0 4.7;10.6 5.5;9.5 3.5;13.8 4.5];
dh2=mahal(sam_p,sam_p);%计算白血病样本与白血病类的马氏距离
dh1>dh2
dtoh=mahal(sam_new,sam_h)
dtoh=mahal(sam_new,sam_p)
%利用MATLAB中的classify函数进行判别
training=sample;
g=Y;
[class,err]=classify(sample,training,g)
[class,err]=classify(sam_new,training,g)
sam_new =
10 4
cresult1 =
1
1
1
1
1
1
1
1
1Hale Waihona Puke 1100
0
0
1
0
0
0
0
1
1
0
0
ans =
1
1
1
1
0
1
1
1
1
0
0
1
1
dtoh =
7.2036
dtoh =
0.7252
class =
1
1
1
1
1
1
1
1
1
1
1
-1
-1
bayes判别的统计思想是假定对研究的对象已有一定的认识常用先验概率分布来描述这种认识然后取得一个样本计算该样本落入各个子域的概率进而修正已有的知识先验概率分布得到后验概率分布各种统计推断都通过后验概率分布来进行最后那类样本的后验概率分布越大就将该样本判别为哪一类
判别分析解读 PPT
Discriminant Analysis
流行病与卫生统计学系
• 聚类分析:对(样本)总体进行分类 • 判别分析:对(样本)个体进行分类
判别与聚类
• 聚类分析可以对样本/指标进行分类,判别分析 只对样本进行分类。
• 聚类分析事先 不知道事物的类别,也不知道应 分几类;判别分析必须事先知道事物的类别, 也知道应分几类。
• 在农林害虫预报中,根据以往的虫情,多种气 象因子来判别一个月后的虫情是大发生,中发 生或正常
• 在体育运动中,判别某游泳运动员是适合练蛙 泳,仰泳还是自由泳
• 在医疗诊断中,根据某人多种检验指标来判断 此人是某病患者还是非患者
判别分析--诊断
• 临床诊断: • 急腹症的患者,需要诊断患病原因。 • 诊断阑尾炎时需要与其他急腹症作鉴别诊断;
• 聚类分析不需要分类的历史资料,能直接对样 本进行分类;判别分析需要历史资料去建立判 别函数,然后才能对样本进行分类。
• 判别分析:根据判别对象若干个指 标的观测结果判定其应属于哪一类 的统计学方法。
应用
• 在经济学中,根据人均国民收入,人均工农业 产值,人均消费水平等多个指标来判定一个国 家的经济发展程度所属等级
以p=q=k=2 来说明Fisher判别分析法的基本原理和计算方法
根据Fisher判别分析法的基本原理,就是要选择一组 适当的系数 c 1 , c 2 ,…, c k ,使得类间差异D最大 且类内差异V最小,即,使得下式的值 Q 达到最大。
根据多元函数求极值的原理和方法,使得 Q 取最大 值的点是Q 的一阶偏导函数等于0的方程组的解。 令上述方程组的解是: 那么,Fisher判别函数估计式是:
该类。 • 适合于多类的判别分析。
判别分析完整课件
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di
判别分析
多变量统计分析方法
01 简介
03 判别函数
目录
02 基本思想 04 建立方法
05 判别方法
07 应用
目录
06 验证方法
基本信息
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的 一种多变量统计分析方法。
其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待 定系数,并计算判别指标。据此即可确定某一样本属于何类。
3)Fisher判别:亦称典则判别,是根据线性Fisher函数值进行判别,通常用于梁祝判别问题,使用此准则 要求各组变量的均值有显著性差异。该方法的基本思想是投影,即将原来在R维空间的自变量组合投影到维度较低 的D维空间去,然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小,而不同类间投影的离差 尽可能大。Fisher判别的优势在于对分布、方差等都没有任何限制,应用范围比较广。
判别方法
判别方法
判别方法是确定待判样品归属于哪一组的方法,可分为参数法和非参数法,也可以根据资料的性质分为定性 资料的判别分析和定量资料的判别分析。此处给出的分类主要是根据采用的判别准则分出几种常用方法。除最大 似然法外,其余几种均适用于连续性资料。
1)最大似然法:用于自变量均为分类变量的情况,该方法建立在独立事件概率乘法定理的基础上,根据训 练样品信息求得自变量各种组合情况下样品被封为任何一类的概率。当新样品进入是,则计算它被分到每一类中 去的条件概率(似然值),概率最大的那一类就是最终评定的归类。
基本思想
基本思想
根据判别中的组数,可以分为两组判别分析和多组判别分析; 根据判别函数的形式,可以分为线性判别和非线性判别; 根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等; 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
第十八章 判别分析
10.859
F
Appr ox. 1.508
df1
6
df2 2613.311
Sig.
.172
Tests null hypothesis of equal population covaria
本例p>0.05,满足齐性条件.
28
两总体方差不齐距离示意
z1
z2
29
建立判别规则和判别值(Zc)
zc
zA
1
.51 31 8.466
3.009
31
典型判别函数
(canonical discriminant function)
Canonical Discriminant Function Coefficients
F un c tio n
1
X1
.040
X2
-.127
X3
.179
(C o n stan t)
类间 均数 差值
.....
(18-3)
Sm1C1 Sm2C2 ....SmmCm Dm
Sij为第i指标和第j个指标的合并协方差
zc1x1c2x2....cm xm
13
2.建立判别规则和判别值(Zc)
zc
zA
zB 2
(18-5)
z i z c 判为A类
z i z c 判为B类
对资料要求: 要求建立方程的观察对象分类(y)已经
明确(用金标准确定),收集建模对象(训 练样本)的m个变量(x)建立判别方程。
7
判别分析建模的方法
根据自变量(x)资料性质:
自变量(x)为计量数据: Fisher判别、Bayes判别(SPSS、SAS
判别分析精讲
判别分析判别分析是一种常用的统计分析方法,根据观察或测量到若干变量值,判别研究对象属于哪一类的方法。
进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。
判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。
线性判别函数一般形式是1122...n n y a x a x a x =+++,y 为判别分数(判别值),n x 为反映研究对象特征的变量,n a 为各变量的判别系数。
典则判别分析:建立典则变量代替原始数据文件中指定的自变量。
典则变量是原始自变量的线性组合。
用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。
实验:实验数据见:判别分析2010.sav .例1:一个城市的居民家庭,按其有无割草机可分为两组,有割草机的记为一组为1π,没有割草机的一组记为2π,割草机工厂欲判断一些家庭是否购买割草机。
从1π和2π分别随机抽取12个样品,调查两项指标:1x =家庭收入,2x =房前屋后土地面积。
用y 作为二元被解释变量,有割草机的家庭用1表示,没有割草机的家庭用0表示,12,x x 作为解释变量。
实验步骤:打开判别分析2010.sav ,之后选择判别分析。
选择变量,定义范围分组变量:必须是离散变量,设置分类变量的范围选择变量:选择一部分符合条件的观测量进行判别函数的推导,而且有一个变量的某个值可以作为这些观测量的标识。
例如:新设一个变量group,选择group=1,则只有group=1的观测量参与判别函数的推导。
一起输入自变量:判别分析过程使用所有的自变量进行判别分析,建立全模型。
使用步进式方法:筛选能对观测量的特性提供丰富的信息的自变量进入判别分析。
在“方法”栏中作相应选择Wilks’lambda:每步都是Wilk的lambda统计量最小的进入判别函数。
未解释方差:每步都是各类不可解释的方差和最小的变量进入判别函数。
统计学中的判别分析与逻辑回归
统计学中的判别分析与逻辑回归判别分析和逻辑回归是统计学中常用的两种分类模型,它们在数据分析和预测模型建立中具有重要的作用。
本文将介绍判别分析和逻辑回归的基本概念、原理和应用,旨在帮助读者更好地理解和运用这两种方法。
一、判别分析1. 判别分析概述判别分析是一种用于对数据进行分类的统计方法,它通过分析样本的特征,将其分为已知类别的群体。
常见的判别方法有线性判别分析(LDA)和二次判别分析(QDA)。
2. 线性判别分析(LDA)线性判别分析通过计算样本之间的距离和类别间的距离来进行分类。
它假设各类别样本的协方差矩阵相同,并且各类别样本的分布服从多元正态分布。
LDA将数据投影到一条直线上,使得各个类别的样本在该直线上的投影具有最大的类间距离,同时最小化类内样本的方差。
3. 二次判别分析(QDA)二次判别分析相比于LDA,对于类别协方差矩阵的假设更加宽松,允许各个类别的样本分布具有不同的协方差矩阵。
QDA将数据投影到一个二次曲面上进行分类,在样本分布接近二次型的情况下可以得到较好的分类效果。
4. 判别分析的应用判别分析被广泛应用于模式识别、生物医学研究、金融风险评估等领域。
例如,在肿瘤分类中,可以利用判别分析方法将不同类型的肿瘤进行分类,辅助医生进行判断和诊断。
二、逻辑回归1. 逻辑回归概述逻辑回归是一种广义线性模型,用于建立二分类模型。
它通过寻找最优的参数估计,将自变量与因变量之间的关系表示为一个逻辑函数。
逻辑回归常用的形式有二项逻辑回归和多项逻辑回归。
2. 二项逻辑回归二项逻辑回归适用于因变量只有两个取值的情况,例如真与假、成功与失败等。
它通过最大似然估计来确定参数的取值,得到的结果是在给定自变量条件下发生某一事件的概率。
3. 多项逻辑回归多项逻辑回归适用于因变量有多个类别的情况,例如鸢尾花的三个类别,可以使用多项逻辑回归进行分类。
多项逻辑回归利用“一对多”或“一对一”的方法将多个类别进行逐一比较,得到每个类别的概率。
医学统计学课件-第十八章 聚类分析
聚类分析(clustering analysis)一、聚类分析与判别分析将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。
已成为发掘海量基因信息的首选工具。
在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。
判别分析聚类分析二者都是研究分类问题的多元统计分析方法二、聚类对象类型聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。
例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。
(2)Q型聚类又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。
无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。
聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similarity coefficient)的定义。
1.R 型(指标)聚类的相似系数X 1,X 2,…,X m 表示m 个变量,R 型聚类常用简单相关系数的绝对值定义变量间的相似系数:绝对值越大表明两变量间相似程度越高。
同样也可考虑用Spearman 秩相关系数定义非正态变量X i 与X j 间的相似系数。
当变量均为定性变量时,可用列联系数定义类间的相似系数。
22()()(19-1)()()i i j j ij i i j j X X X X r X X X X --=--∑∑∑将n 例(样品)看成是m 维空间的n 个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。
2.Q 型(样品)聚类常用相似系数|| (19-4)ij i j d X X =-∑(2)绝对距离:绝对距离(Manhattan distance )2() (19-3)ij i j d X X =-∑(1)欧氏距离: 欧氏距离(Euclidean distance )2.Q 型(样品)聚类常用相似系数(3)Minkowski 距离:绝对距离是q=1时的Minkowski 距离;欧氏距离是q=2时的Minkowski 距离。
判别分析
判别分析判别分析就是根据所研究的个体的观测指标来推断该个体所属类型的一种统计方法。
它的统计模型的语言描述就是:设有k 个总体k G G G ,,,21 ,希望建立一个准则,对任意给定的一个样本x ,依据这个准则就能判断它是来自哪个总体。
依据研究问题的角度和方法分类,现有的判别分析的方法有距离判别,Fisher 判别和Bayes 判别。
§1 距离判别一、两总体情况设有两个总体 21,G G 和一个p 维样品x .我们以x 距离这两个总体中心的远近来判断其归属。
设21,G G 的协差阵分别为21,∑∑,选用马氏距离,则x 距21,G G 的距离分别为)()(),(111112μμ-∑'-=-x x G x d)()(),(212222μμ-∑'-=-x x G x d . 于是判别准则即可叙述为⎩⎨⎧>∈≤∈),(),(,),(),(,2212222121G x d G x d G x G x d G x d G x 若若当∑=∑=∑21时,)(2)()2/)((2)()()()(),(),(211212121112212x W x x x x x G x d G x d -=-∑'+--=-∑'---∑'-=----μμμμμμμμ判别准则可叙述为⎩⎨⎧<∈≥∈0)(,0)(,21x W G x x W G x 若若易见,)(x W 是x 的线性函数。
这就使得判别过程比较简单。
几点说明:1、 按以上准则(最小距离准则)进行判别分析可能会产生误判。
2、 当两个总体的均值十分接近时,无论用什么办法,误判概率都较大,这时判别是无意义的。
所以在判别之前应对两总体的均值进行显著性检验。
3、 由于落在μ附近的点误判概率比较大,有时可划出一个待判区域,如取)](51),(51[],[2121μμμμμμ-+--=d c作为待判区域。
4、 上述判别准则并未涉及具体的分布类型,只要二阶矩存在就行。
第18章:判别分析
第18章 判别分析判别分析,也就是根据观测数据对所研究的对象进行分类判别。
判别分析方法就是专门根据若干因素对预报对象进行分类的一种方法, 通过分析可以建立用于定性预报的数学模型。
例如,我们积累了某种病虫害各种发生状态的若干历史资料(样本),希望从中总结出分类的规律性(即判别公式),在以后的工作中遇到新的发生状态(样本)时,只要根据总结出来的判别公式判断它所属的类就行了。
在判别分析中,可从不同角度提出问题,故有不同的判别准则,常见如Fisher 判别和Bayes 判别。
第1节 两组判别1. 概述 在两组间进行判别分析的处理方法,基于统计上的费歇尔(Fisher)准则,即判别的结果应使两组间区别最大,使每组内的离散性最小。
在费歇尔准则下,确定线性判别函数y =c 1x 1+c 2x 2+…+c p x p ,其中 c 1, c 2, …, c p 为待求判别函数的系数。
以A 和B 代表两组总体,两组中各有一批抽样数据,每个样本有p 个变量(p 个判别指标)。
A 组有n A 个样本,各判别指标(变量)的平均值为x 1(A), x 2(A), …, x p (A)。
B 组有n B 个样本,各判别指标(变量)的平均值为x 1(B),x 2(B), …, x p (B) 。
若以y c x k k k p ()()A A ==∑1 表示A 组样本的重心,以y c x k k k p()()B B ==∑1表示B 组样本的重心,则两组间的离差可用(()())y y A B -2来表示,A 组内部离散程度和B 组内部离散程度分别以(()())y y i i n A A -=∑211和(()())y y i i n B B -=∑212 来表示,其中y i (A)=c x k ik k p ()A =∑1,y c x i k ik k p()()B B ==∑1。
要使两组间离差最大,必须使()())y y (A B -2最大;要使各组内的离散程度最小,必须使()())y y i i n (A A -=∑211+(()))y y i i n B (B -=∑212达到最小。
判别分析课件
断
○○○○○●●●●
界
○○○●●●●
值
○○●●●
○●●●
X平面
X平面
判别分析的应用: 1、用于临床上疾病的诊断和鉴别诊断。 2、疾病发病的预测 3、病人预后的预测
判别分析的分类
1、按类别分:二类判别 多类判别
Fisher、Bayes
2、方法:Fisher判别分析(距离判别) Bayes判别分析(概率判别) 非参数判别分析
详细资料见:皮质醇.xls
原始数据
整理数据
分析方法
分析方法
分析方法
Wilks λ统计量最小化 相邻两组马氏距离最大化
组间不可解释方差和最小化
分析方法
分析方法
分析结果
判别函数式:
新病人的数据分别代入,哪个值 大就判归哪种类型。
Y1=0.222ACTH8+3.985转移+8.595FHIT+4.744Ki-67-20.014 Y2=0.080ACTH8+3.647转移+6.246FHIT+4.239Ki-67-8.848 Y3=0.019ACTH8+14.462转移+4.153FHIT+9.483Ki-67-11.968
常数项
回归系数
构造判别函数式:
p yj|x 1 e 1 j x 1 e 1 j 1 x
j=1,2,3,….
新病人回代,哪个值大判归哪类。
Y=0的概率:
P y 0 1 e 5 .1 7 2 .3 2F 84 H 1 1 .7IK 5 T 6 8 i 2 7 .0P 56 CNA
判别分析的根本原理:
Y平面
诊断界值
○○○○○○○● ○○○○○○● ○○○○○●●●● ○○○●●●● ○○●●● ○●●●
第18章判别分析PPT课件
X
(B) j
分
别
为
X
和
i
X
j
于
A
类和
B
类的观察值。
2. 判别规则 建立判别函数后, 按公式 (18-1) 逐例计算判别函数值 Zi ,进一步求 Zi 的两类均数 ZA、ZB与总均数Z ,按下式计算判别界值:
判别规则:
Zc
ZA
ZB 2
Zi Zc, Zi Zc, Zi Zc,
判为A 类 判为B 类 判为任意一类
第一节 Fisher判别
适用于指标为定量指标的两类判别 (或多类判别)
一、两类判别
1. Fisher判别的原理
已知A、B两类观察对象, A类有nA 例, B 类有nB 例,分别记录了X1, X2,, Xm 个
观察指标,称为判别指标或变量。Fisher 判 别法就是找出一个线性组合
Z C 1 X 1 C 2 X 2 C m X m ( 1 8 - 1 )
S 21C 1
S 22C 2
S m 1C 1 S m 2 C 2
S1mC m D1 S2mCm D2
SmmCm Dm
(18-3)
式中
Dj
X
(A ) j
, X ( B ) j
分 别 是 X
, ( A )
j
X
(B) j
A
类和
B
类第
j个
指 标 的 均 数 ( j 1,2, , m ) ;
讲述内容
第一节 Fisher判别 第二节 最大似然判别法 第三节 Bayes公式判别法 第四节 Bayes判别 第五节 逐步判别 第六节 判别分析中应注意的问题
▪ 目的:作出以多个判别指标判别个体分类的
医学医学统计学判别分析共69页文档
▪
26、要使整个人生都过得舒适、愉快,这是不可能的,因为人类必须具备一种能应付逆境的态度。——卢梭
▪
27、只有把抱怨环境的心情,化为上进的力量,才是成功的保证。——罗曼·罗兰
▪பைடு நூலகம்
28、知之者不如好之者,好之者不如乐之者。——孔子
▪
29、勇猛、大胆和坚定的决心能够抵得上武器的精良。——达·芬奇
▪
30、意志是一个强壮的盲人,倚靠在明眼的跛子肩上。——叔本华
谢谢!
69
医学医学统计学判别分析
26、机遇对于有准备的头脑有特别的 亲和力 。 27、自信是人格的核心。
28、目标的坚定是性格中最必要的力 量泉源 之一, 也是成 功的利 器之一 。没有 它,天 才也会 在矛盾 无定的 迷径中 ,徒劳 无功。- -查士 德斐尔 爵士。 29、困难就是机遇。--温斯顿.丘吉 尔。 30、我奋斗,所以我快乐。--格林斯 潘。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(18-5) (18-6)
例18-1 收集了22例某病患者的三
个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患 者(B)类10例。试作判别分析。
表18-1
类别 编号
A
1
A
2
A
3
A
4
A
5
A
6
A
7
A
8
A
9
A
10
A
11
A
12
B
13
B
14
B
15
B
16
B
17
B
18
B
19
B
20
(A j
)
,
X
(B) j
分别为
X
i和X
j
于
A
类和
B
类的观察值。
2.判别规则 建立判别函数后,按公式(18-1) 逐例计算判别函数值Zi ,进一步求Zi 的两类均数 ZA 、 ZB 与总均数 Z ,按下式计算判别界值:
判别规则:
Zc
ZA
2
ZB
ZZii
Zc , Zc ,
Zi
Z
,
c
判为A类 判为B类 判为任意一类
判别函数为 Z 0.070 X 1 0.225 X 2 0.318 X 3 。
逐例计算判别函数值Zi 列于表 18-1 中的 Z 列,同 时计算出 Z A 1.428 、Z B 1.722 与总均数Z 0.004 。
(3)确定界值,进行两类判别: 按公式 ( 18-5 ) 计 算 Zc (1.428 1.722) 2 0.147 , 将 Zi 0.147 判为 A 类,Zi 0.147 判为 B 类。判 别结果列于表 18-1 的最后一列,有 4 例错判。
二、判别效果的评价 用误判概率P衡量
方法:回顾性:样本回代。必须做,但效果差。
回顾性误判概率估计往往夸大判别效果。
前瞻性:验证样本。 刀切法: 步骤 ①顺序剔除一个样品,用余下的 N-1 个样品建立 判别函数;
②用判别函数判别剔除的样品; ③重复上两步 N 次, 计算误判概率。 此法优点:充分利用了样本的信息建立和验证判别函 数。本例刀切法误判概率估计值为 6 22 27.3% 。 要求判别函数的误判概率小于 0.1 或 0.2 才有应用价值。
第十八章
判别分析
Discriminant Analysis
Content
• Fisher discriminant analysis • Maximum likelihood method • Bayes formula discriminant analysis • Bayes discriminant analysis • Stepwise discriminant analysis
▪ 用途:解释和预报(主要用于计量诊断)。 ▪ 分类(经典): Fisher判别和Bayes判别。
按资料类型分:
1. 计量资料判别分析。目的是作出以定量指标 判别个体属性分类或等级的判别函数。
2. 计数资料判别分析。目的是作出以定性或等 级指标判别个体属性分类或等级的概率公式。
按方法名分
➢ 1. Fisher判别 ➢ 2. 最大似然判别法 ➢ 3. Bayes公式判别法 ➢ 4. Bayes判别 ➢ 5. 逐步判别
个
指标的均数 ( j 1,2, , m) ;
Sij 是 X1, X 2 ,L , X m 的合并协方差阵的元素。
Sij
(
X
( i
A
)
X
( i
A
)
)(
X
( j
A
)
X
(A j
)
)
(
X
(B) i
nA nB 2
X
(B) i
))(
X
(B) j
X
(B) j
)
(18-4)
式中
X
(A) i
,
X (B) i
,
X
2020/4/23
医学统计学
讲述内容
第一节 Fisher判别 第二节 最大似然判别法 第三节 Bayes公式判别法 第四节 Bayes判别 第五节 逐步判别 第六节 判别分析中应注意的问题
▪ 目的:作出以多个判别指标判别个体分类的
判别函数或概率公式。
▪ 资料:个体分两类或多类,判别指标全部为
数值变量或全部为分类变量。
1.39
A
0
-2
2
-1.09
B
-10
-2
0
0.25
A
9
-5
1
-2.07
B
2
-1
-1
-0.05
A
17
-6
-1
-2.22
B
8
-2
1
-1.33
B
17
-9
1
-3.53
B
0
-11
3
-3.43
B
-9
-20
3
-4.82
B
-7
-2
3
-0.91
B
-9
6
0
1.98
A
12
0
0
-0.84 B
(1)计算变量的类均数及类间均值差Dj, 计算结果列于表18-2。
B
21
B
22
22例患者三项指标观察结果(Zc=-0.147)
X1
观察值
X2
X3
Z
Fisher 判别结果
23
8
0
0.19
A
-1
9
-2
2.73
A
-10
5
0
1.83
A
-7
-2
1
-0.28
B
-11
3
-4
2.72
A
-10
3
-1
1.69
A
25
9
-2
0.91
A
-19
12
-3
4.98
A
9
8
-2
1.81
A
-25
-3
-1
表18-2 变量的均数及类间均值差
类别 例数
X1
X2
X3
A
12
-3
4
-1
B
10
4
-5
1
类间均值差D j
-7
9
-2
(2)计算合并协方差矩阵: 按公式(18-4),例如:
S11
[(23 3)2
(1 3)2
(10 3)2 ] [(9 4)2 12 10 2
(2 4)2
(12 4)2 ]
判别系数 C 可通过对λ求导,由下列方程组解出
S11C1 S12C2 L S1mCm D1
S21C1
S22C2
L L
S2mCm D2
Sm1C1 Sm2C2 L SmmCm Dm
(18-3)
式中 Dj
X (A) j
X (B) j
,X(ABiblioteka j,X (B) j
分别是
A
类和
B
类第
j
175.3
得到合并协方差阵
175.3 20.3 2.3
S
20.3
38.2
5.8
2.3 5.8 2.7
代入公式(18-3)得
175.3C1 20.3C2 2.3C3 7
20.3C1 38.2C2 5.8C3
9
2.3C1 5.8C2 2.7C3 2
解此正规方程得 C1 0.070 ,C2 0.225 ,C3 0.318
第一节 Fisher判别
适用于指标为定量指标的两类判别 (或多类判别)
一、两类判别
1. Fisher判别的原理
已知 A、B 两类观察对象,A 类有 nA 例, B 类有 nB 例,分别记录了 X1, X 2 , , X m 个
观察指标,称为判别指标或变量。Fisher 判 别法就是找出一个线性组合
Z C1X1 C2 X2 L Cm X m
(18-1)
Fisher 准则:使得综合指标 Z 在 A 类 的均数 ZA 与在 B 类的均数 ZB 的差异 ZA ZB 尽可能大,而两类内综合指标 Z 的 变异 SA2 SB2 尽可能小,即使得 达到最大。
ZA ZB SA2 SB2
(18-2)