第五章 判别分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概率:
记: Q y(a) y(b) 2 两组判别函数点的中心距
na
H
nb
yi (a) y(a) 2
yk (b) y(b) 2
组内判别函数 点的离散度
i 1
k 1
1 na
m
y(a)
na
i 1
yi (a)
cj xj (a)
j 1
y(b)
1 nb
nb k 1
yi (b)
判别分析:根据已知的G个总体中取出的G组样品 的观测值,建立总体与样品变量之间定量关系(判 别函数),并据此判别未知类属样品类别的一种多 元统计分析方法。
2
设ag(g=1,2,…,G)表示 G 个总体,每个总体中分 别有ng个样品,每个样品有m个变量。
当G = 2时,叫做两总体判别,又称为线性判别; 当G > 2时,叫做多总体判别;筛选变量建立判别 函数的方法叫做逐步判别分析。
这是建立判别函数所需要的数据。
6
2. 费歇尔(Fisher)准则下的判别函数
把xij(a)、xkj(b)分别代入(5-1)得判别函数值:
m
yi (a) c j xij (a) (i 1, 2,, na ) j 1 m
yi (b) c j xkj (b) (k 1, 2,, nb ) j 1
yc
图5-4 判别指数
12
§2 多总体判别分析
一、原始数据
若从G个总体中分别取出ng( g = 1 , 2 ,… , G )个 样品,每个样品有m个变量,样品观测值记为:
X gk
x (1) gk
x(2) gk
x(m) gk
(g 1, 2,,G ;k 1, 2,, ng )
xgk(i)为总体ag( g=1,2,…,G )中第k ( k=1,2,…, ng)
判别指数
程。判别样品归属依赖于变
量x1,变量x2对判别不起作 用。y=x1即线性判别函数。
A
B
x1 yc
图5-1 示例
4
一、线性判别函数的一般形式
若样品X 有x1、x2两个变量,总体A、B的样品分别落在 两个椭圆内,如图所示。
若直接用 x1、x2的观测值确 x2 新变量是原变
定X所属的总体,则当观测值
第五章 判 别 分 析
§1 两总体判别分析 §2 多总体判别分析 §3 逐步判别分析 §4 应用算例简介
1
❖引言
地学领域内有很多属于归类判别的问题,如:储 层是否含油、岩样属于什么沉积相 、生油岩处于 什么演化阶段等,从定量角度看,它们都是对个体 进行归类判别的问题。
为叙述方便,将个体称为样品,个体所属的类称 为总体。在此基础上给出判别分析的一般概念:
y c1x1 c2 x2 cm xm (5-1)
称上式为线性判别函数,它是空间中的平面。称
c1,c2,…,cm为判别系数。
二、判别系数的确定
1.原始数据
若总体A、B各有na、nb个样品观测值,分别为:
x ij (a) ( i = 1, 2, …, na; j = 1 , 2 ,…, m) xkj (b) (k = 1, 2, …, nb; j = 1 , 2 ,…, m)
m
c j x j (b)
j 1
7
费歇尔准则: 使Q 达到最大、H 达到最小。
它的含义是: Q达到最大,表明 两组判别函数点的中 心距最大;H达到最 小,判别函数点的分 布最集中。满足以上 条件的判别函数可最 大限度地把A和B区 分开(如图所示)。
y
x2来自百度文库x1
图5-3 两总体样品点在平面y上的投影
8
1.显著性检验
若A、B差异不明显,那么由观测值建立的判别 函数就无实际意义。为此,需要对A、B的差异性 进行检验。
检验方法:利用建立的判别函数对N(na+nb)个样 品的总体重新判定,若判对了n (n ≤ N )个,定义 R=n/N为判对率。R值越大,A、B差异就越明显。
2.判别指数
在检验显著的条件下,定义:
yc
na
y(a) na
nb nb
y(b)
11
为判别未知样品所属总体的判别指数。
3.样品总体的判别方法 设 y(a) yc y(b) ,把样品观测值xj (j=1,2,…,m) 代入判别函数,得:
m
y c j x j j 1
当y < yc 时,X∈A 当y ≥yc 时,X∈B
A
B
y(a)
y(b)
要求Q达到最大,H 达到最小,则等价于要求
V=Q/H
达到最大。
V是cj (j = 1 , 2 ,…, m)的二次函数,且V>0,令:
V 0 ( j 1, 2,, m) c j
m
整理后可得: s jkCk d j ( j 1,2,, m) k 1
9
na
s jk [xij (a) x j (a)][xik (a) xk (a)] i 1
判别分析的基本步骤: (1)搜集来自G个总体的G组已知观测值(m个变量); (2)根据已知数据建立判别函数; (3)利用判别函数判别未知总体的样品类属。
3
§1 两总体判别分析
简单说,两总体判别就是确定样品X是属于总体 A还是属于B 的统计分析方法。
判定样品X是属于A 还是属于B 的判别函数一般
是线性判别函数。 x2 右图是一个简单的判别过
量的线性组合
x1、x2分别落在区间(c,d)和(a,b) 内时,不能确定样品属于A或属 b
于B。但若把坐标系旋转α角, a
变为新坐标系 y、z,变量y 则
可把A、B分开,变量y称为判
y c1x1 c2 x2
别函数,其形式为:
y c1 x1 c2 x2
cd
x1
图5-2 两总体判别分析示意图
5
一般,设样品有m个变量,那么判别函数的一般 形式为:
nb
[xij (b) x j (b)][xik (b) xk (b)] i 1
( j, k 1,2,, m)
d j [x j (a) x j (b)] ( j 1,2,, m)
由上述线性方程组解出cj,从而确定判别函数:
y c1x1 c2 x2 cm xm (5-2)
10
三、显著性检验及样品判别
个样品的第i个变量的观测值。Xgk是求判别函数的
原始数据。
13
二、多总体判别分析的基本原理
把G 个总体记作ag (g=1,2,…,G), 那么对于未知类 别的一个样品X来说,它可能属于任何一个总体,
但它归属每个总体ag的概率不同。 由Bayes 公式可以求得X∈ag( g=1,2,…,G )的条件
相关文档
最新文档