判别分析完整课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两类医院的原始资料
第一类:合格医院(g=1) 编号 x1 x2 x3 1 78.73 80.44 97.61 2 91.99 80.77 93.93 3 87.50 82.50 84.10 4 103.44 80.40 93.75 5 81.82 88.45 97.90 6 73.13 82.94 92.12 7 73.08 86.82 98.70 8 98.82 85.49 93.18 9 89.64 80.64 96.94 10 86.19 83.55 93.90 11 85.37 79.10 99.15
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
第二类:不合格医院(g=2) 编号 x1 x2 x3 1 73.73 66.63 93.98 2 90.56 82.07 77.15 3 72.49 87.59 77.15 4 72.48 84.87 74.09 5 74.27 63.91 85.54 6 58.81 86.20 73.46 7 93.62 85.89 79.80 8 78.69 77.01 86.79 9 72.48 78.12 82.38
(1) ( 2)
类内离散程度最小第一类内各指标的变异和第二 类内各指标的变异最小。
1 1 2 ( yi (1) y(1) ) n n1 i 1 2
n1
( y
i 1
n2
i ( 2)
y( 2) )
2
I
( y( 1 ) y( 2 ) ) 1 1 2 ( yi (1) y(1) ) n n1 i 1 2
冠心病组与正常组的舒张压和胆固醇数据
第一类:冠心病人(g=1) 编号 x1 x2 1 9.86 5.18 2 13.33 3.73 3 14.66 3.89 4 9.33 7.10 5 … … 6 … … 7 … … … … … … … … 15 13.33 5.96 16
第二类:正常人(g=2) x1 x2 2.07 10.66 12.53 4.45 13.33 3.06 3.94 9.33 … … … … … … … … … … 11.20 3.42 9.33 3.63
判别分析的任务:
根据一批分类明确的样本(品)建立判别函数, 用以判断某新样品属于何种类别。
判别分析的原理:
Fisher判别思想:根据个体与某类别间的距离远近 作出判别。 Bayes判别思想:根据先验概率求出后验概率的分 布,据其做出判断。
三、判别分析的基本步骤:
分类明确的样本建立判别函数( 用于判断分类 ) y=C1X1+C2X2+……CmXm = CiXi 无统计学意义end 假设检验 有统计学意义确定类别分界点 评价判别效果 效果好(判对率高)应用 效果不好(判错率高)优化判别方程
符合率=判断正确的例数/总例数100%
2. 前瞻性考核(方程外考核)
不参与建函数的那些样品,代入方程判断其 所属类别,若符合率高更有说服力。 实际工作中,可将样品随机分为两类,一类 用于建函数,另一类用于考核。
三、判别函数的应用及有关问题
1.判别分析主要是对未知类别的样品进行分类。 2.比较各指标判别作用/能力的大小(贡献率)。 3. 关于总体分布:正态、偏态均可, 正态分布资料 的判别效果最好。 y(1) y( 2) y ,(n1 n2) 4.关于判别临界值的确定: c 5. 若判断的指标较多时,要求的样本含量要大一些。
第一类
编号 1 X1 X11(1) X2…m
…
第二类
编号 1 X1 X11(2) X2...Xm X12 (2)
X1m(1)
2
..
X21(1)
…X2m(1)
2
..
X21(2)
X2m(2)
n1
Xn1(1)
…Xn1m(1)
n2
Xn2(2)
Xn2m(2)
现根据N例已知类别的观测值建立判别函数 y=C1X1+C2X2+……CmXm = CiXi,该函数的建立依 据Fisher原则:每一类内的离散程度最小,类间的 离散程度最大的原则。类间离散度最大两类的差 别最大即: d y y
|—————|—————| (I) yc (II)
根据判别函数求出y值,与yc比较判定其所属类别。
当要判别一个新样品的类别时,把其观测指标X1, X2, ……, Xm值代入判别方程,求得的判别函数值y,若 y< yc,就将其归入第一类,若若y> yc ,则归入第二类。
二、判别效果评价 1.回顾性考核(方程内考核、内回代): 用原有的样品验证判别函数判断的符合率或 错判率将两类原始资料代入判别方程,求 每一例的y值,然后与yc比较,确定它所属的 类别,和原始类别比较,分别观察两类别的 回代结果与原来类别的吻合情况。
判别分析
一、什么是判别分析:
概念:根据观测到的指标对研究对象进行
分类的统计方法。
如:医院管理中,根据医疗质量、管理质量等方面的 多项指标对整个医院工作质量做出好、中、差三类的 综合评定;流行病学中,根据上一年气象情况指标判 断今年流脑的发病情况(散发、流行、大流行、暴发) 等;临床医学中,医师根据某一患者的症状、体征、 化验指标判断某就诊者是否患某种疾病的统计方法; 可用于鉴别诊断或疾病分类的诊断。
L23 积和
L33平方和
( x ) 2 n
同变量间:离均差平方和 Lxx ( x x ) 2 x 2 不同变量间:离均差积和
Lxy ( x x )( y y ) xy
( x )( y ) n
fij lij(1) lij( 2)
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… … fm1C1+fm2C2+……fmmCm=dm
y ci xi
i 1 n
2
n1
Hale Waihona Puke Baiduy
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di
xi (1) xi ( 2)
fij lij(1) lij( 2)
lij (1) ( xik (1) xi (1) )
i 1 n1 2
lij ( 2) ( xik ( 2) xi ( 2) )
i 1
n2
2
x1
x2
x3
L13 积和
X1 L11平方和 L12积和 X2 L21积和 L22平方和 X3 L31积和 L32 积和
D ( y(1) y( 2) )(n1 n2 2) ( ci di )(n1 n2 2)
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
理论基础: Bayes判别分析法的理论基础是多元正态分布理论、 非参数概率密度估计理论及Bayes概率定律。前者 是参数分析法,后两者用于数据不满足正态分布或 数据分布不明确时,称作非参数判别法。 条件事前概率不能知的情况下,可规定其为0.5, 计算每一个点属于每一类的事后概率。 Bayes判别分析法的判别函数和判别准则
如何解此方程组? (1)多元一次方程组,消元法。 (2)用消去变换法,经m次变换。
矩阵的最后一列分别是各判别系数,代入判 别函数的一般表达式:
y=C1X1+C2X2+……CmXm
(二)对判别函数(方程的)检验
(n1 n2 m 1)n1n2 2 F D m(n1 n2 2)( n1 n2 )
2
Ui
ci ( xi (1) xi ( 2 ) ) y(1) y( 2 )
回归分析与判别分析的区别:
1、X为判别指标(自变量);Y为构造的函数(因变量)
2、用途、原理。
实例分析
BOOK-P108
第二节 Bayes判别分析法
Bayes判别分析法是以概率为判别准则使得每一 类中的每一个点都以最大的概率进入该类。 该法不仅能解决多类判别的问题,而且分析时考 虑了数据的分布状态,使判别效能得到较大提高。 SAS软件的判别分析是以Bayes判别分析法为理 论基础的。
二、判别分析方法的类型:
定量资料的判别方法 1. 按资料类型分 定性资料的判别方法
两类判别
2. 按分类级别分 多类判别
非概率型:Fisher准则
3. 按数学原理分 概率型:Bayes准则,最大似然法
第二节 fisher判别分析的基本过程
以Fisher两类判别为例 一、原理与判别函数: (一)判别函数(方程)的建立 根据已知类别的两类样品的各指标值建立 判别函数。两类样品的数据如下: