第五章 判别分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
把xij(a)、xkj(b)分别代入(5-1)得判别函数值:
m
yi(a) cjxij(a) (i1,2, ,na) j1 m
yi(b) cjxk(jb) (k1,2, ,nb) j1
记: Q y(a)y(b)2 两组判别函数点的中心距
na
H
nb
yi(a)y(a)2
yk(b)y(b)2
A
B
x1 yc
图5-1 示例
一、线性判别函数的一般形式
若样品X 有x1、x2两个变量,总体A、B的样品分别落在 两个椭圆内,如图所示。
若直接用 x1、x2的观测值确 x2 新变量是原变
定X所属的总体,则当观测值
量的线性组合
x1、x2分别落在区间(c,d)和(a,b) 内时,不能确定样品属于A或属 b
❖引言
地学领域内有很多属于归类判别的问题,如:储 层是否含油、岩样属于什么沉积相 、生油岩处于 什么演化阶段等,从定量角度看,它们都是对个体 进行归类判别的问题。
为叙述方便,将个体称为样品,个体所属的类称 为总体。在此基础上给出判别分析的一般概念:
判别分析:根据已知的G个总体中取出的G组样品 的观测值,建立总体与样品变量之间定量关系(判 别函数),并据此判别未知类属样品类别的一种多 元统计分析方法。
个样品的第i个变量的观测值。Xgk是求判别函数的
原始数据。
二、多总体判别分析的基本原理
把G 个总体记作ag (g=1,2,…,G), 那么对于未知类 别的一个样品X来说,它可能属于任何一个总体,
但它归属每个总体ag的概率不同。 由Bayes 公式可以求得X∈ag( g=1,2,…,G )的条件
概率:
yc
nay(a)nby(b) na nb
为判别未知样品所属总体的判别指数。
3.样品总体的判别方法 设 y(a)ycy(b),把样品观测值xj (j=1,2,…,m) 代入判别函数,得:
m
y c j x j j 1
当y < yc 时,X∈A 当y ≥yc 时,X∈B
A
B
y(a)
y (b )
ycHale Waihona Puke Baidu
图5-4 判别指数
1.显著性检验
若A、B差异不明显,那么由观测值建立的判别 函数就无实际意义。为此,需要对A、B的差异性 进行检验。
检验方法:利用建立的判别函数对N(na+nb)个样 品的总体重新判定,若判对了n (n ≤ N )个,定义 R=n/N为判对率。R值越大,A、B差异就越明显。
2.判别指数
在检验显著的条件下,定义:
y
x2 x1
图5-3 两总体样品点在平面y上的投影
要求Q达到最大,H 达到最小,则等价于要求
V=Q/H
达到最大。
V是cj (j = 1 , 2 ,…, m)的二次函数,且V>0,令:
V0 (j1,2,,m) cj
m
整理后可得: sjkCk dj (j1,2, ,m) k1
na
sjk [xij(a)xj (a)][xik(a)xk(a)] i1
nb
[xij(b)xj (b)][xik(b)xk(b)] i1
(j,k1,2, ,m )
d j [ x j( a ) x j( b )](j 1 ,2 , ,m )
由上述线性方程组解出cj,从而确定判别函数:
y c 1 x 1 c 2 x 2 c m x m (5-2)
三、显著性检验及样品判别
§2 多总体判别分析
一、原始数据
若从G个总体中分别取出ng( g = 1 , 2 ,… , G )个 样品,每个样品有m个变量,样品观测值记为:
Xgk
xxg(g(12kk))
xg(mk)
(g1,2,,G;k1,2,,ng)
xgk(i)为总体ag( g=1,2,…,G )中第k ( k=1,2,…, ng)
P(ag/X)G P(ag)P(X/ag) G Pgfg(X)
P(aj)P(X/aj) Pjfj(X)
j1
j1
(5-3)
总体ag 的先验概率
总体ag 的概率密度
如果P(ak/X)是条件概率中的最大者,即:
P(ak/X)1 m gGP a(axg/X)
那么就判定样品X∈ak,且判错的概率最小。按 照条件概率的大小判定样品归属的原则称为Bayes 准则。在计算条件概率时,式(5-3)的分母是一个常 数,故只取分子,其相对大小不变。记为:
组内判别函数 点的离散度
i 1
k 1
1na
m
y(a) na
yi(a) cjxj(a)
i1
j1
1nb
m
y(b) nb
yi(b) cjxj(b)
k1
j1
费歇尔准则: 使Q 达到最大、H 达到最小。
它的含义是: Q达到最大,表明 两组判别函数点的中 心距最大;H达到最 小,判别函数点的分 布最集中。满足以上 条件的判别函数可最 大限度地把A和B区 分开(如图所示)。
于B。但若把坐标系旋转α角, a
变为新坐标系 y、z,变量y 则
可把A、B分开,变量y称为判
yc1x1c2x2
别函数,其形式为:
yc1x1c2x2
cd
x1
图5-2 两总体判别分析示意图
一般,设样品有m个变量,那么判别函数的一般 形式为:
yc1x1c2x2 cm xm(5-1)
称上式为线性判别函数,它是空间中的平面。称 c1,c2,…,cm为判别系数。
(3)利用判别函数判别未知总体的样品类属。
§1 两总体判别分析
简单说,两总体判别就是确定样品X是属于总体 A还是属于B 的统计分析方法。
判定样品X是属于A 还是属于B 的判别函数一般
是线性判别函数。 x2 右图是一个简单的判别过
判别指数
程。判别样品归属依赖于变
量x1,变量x2对判别不起作 用。y=x1即线性判别函数。
二、判别系数的确定 1.原始数据 若总体A、B各有na、nb个样品观测值,分别为:
x ij (a) ( i = 1, 2, …, na; j = 1 , 2 ,…, m) xkj (b) (k = 1, 2, …, nb; j = 1 , 2 ,…, m)
这是建立判别函数所需要的数据。
2. 费歇尔(Fisher)准则下的判别函数
设ag(g=1,2,…,G)表示 G 个总体,每个总体中分 别有ng个样品,每个样品有m个变量。
当G = 2时,叫做两总体判别,又称为线性判别; 当G > 2时,叫做多总体判别;筛选变量建立判别 函数的方法叫做逐步判别分析。
判别分析的基本步骤:
(1)搜集来自G个总体的G组已知观测值(m个变量);
(2)根据已知数据建立判别函数;
相关文档
最新文档