第6章 环境判别分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

%对应历史数据的分组编号!!
group=[1 1 1 1 1 2 2 2 2 2 2]‘; %是11x1的列向量
%指定模型类型
type='linear';
%调用函数classify() ;
class= classify(Sample,Training,group,type) ;
%程序输出结果 class= 1 1 2
2.48
1.98 1.55
1.10
1.05 1.07
1.60
1.47 1.52
4
3 3
矿井编 号
(续表)
X1 X2 X3 X4 X5 X6 等级
11
12 13 14 原 始 样 本 15
85.10 6.87
86.54 7.91 84.68 8.07 84.10 9.13 82.34 8.63
25.2
1 2

总体协方差矩阵和它的逆矩阵为:
1.2135 0.3317 Σ 0.3317 1.7979 1 0.8678 0.1601 Σ 0.1601 0.5857 1 Σ ( 1 2) 1.0817 5.3240 '
26.5
30.7 28.9 29.6 28.5
1.14
0.56 0.87 0.96 0.48
0.81
0.79 0.45 0.58 0.74
1.20
1.89 0.78 0.98 1.17
2
1 1 1 1
序号 训 练 样 本
G1 第 1组 SO2 污染 G2 第 2组 HCI 污染 1 2 3 4 5 1 2 3 4 5 6 1 待判样本 X
叶色指数 植株生长指数
9.6 9.3 8.7 8.8 8.5 10.2 11.3 9.8 7.2 8.5 9.6 9.2 19.6 19.9 18.6 18.9 19.6 30.3 28.7 25.6 27.6 29 30 19
x G1 d(x, G1) d(x, G 2 ) x G2 d(x, G1)d(x, G2) (6.1) 待判 d(x, G1)=d(x, G2)

当总体G1和G2为正态总体且协方差矩阵相等时, 距离选用马氏距离,即:
1 d (x, G1) (x μ1)'1 (x μ1) 1 d (x, G2) (x μ2)'1 (x μ2)
解答:本题的训练样本共11个,分2组。 待判样本为3个。利用Matlab函数classify() 对3个待判样本进行判别分析,发现样本1, 2, 3 分别属于第1,1 ,2组。即样本1, 2 是遭受SO2污染,而样本3是遭受HCI污染。 具体结果如下: 观测样本 1 2 3 判别结果 第1组 第1组 第2组
序号
G1 第 1组 SO2 污染 G2 第 2组 HCI 污染 1 2 3 4 5 1 2 3 4 5 6 1 待判样本 X
叶色指数
9.6 9.3 8.7 8.8 8.5 10.2 11.3 9.8 7.2 8.5 9.6 9.2
植株生长指数
19.6 19.9 18.6 18.9 19.6 30.3 28.7 25.6 27.6 29 30 19
2 3
8.6 11.2
19.6 30.3
解法一、直接根据公式计算判别函数W(x) (书p143-144) 解法二、Matlab函数 classify; Matlab 程序模板

解 将第一组记为G1,第二组记为G2。经过计算, 各类样本的指数均值为:
1 n μ1 xi x (8.9800 19.3200 ) n1 i1 1 n μ 2 yi y (9.4333 28.5333 ) n 2 i1 μ (9.2067 23.9267)
(6.2) (6.3)
这里,1,2,1,2分别为总体G1和G2的均值、
协方差矩阵。 , 分别为1,2的逆矩阵。 回顾: 向量与矩阵运算的规则!
1 1 Σ Σ 1 2
概括上述法则,可直观地描述为: 未知所属总体的样本 x ,离哪个总体较近,就 判x属于哪个总体,即算出样本x到总体G2和 G1的距离差,即 w(x)=d(x,G2)-d(x,G1)
若差值为正,则样本 x 属于 G1 ,否则, x 属于 G2 。

于是判别规则(6.1)可以表示为:
x G1 W(x) 0 x G2 W(x) 0 待判 W(x)= 0
(6.5)

其中,称W(x)为判别函数,由于它是x的线性函 数,又称线性判别函数。
线性判别的应用最为广泛,本章的大部分内容是 讨论线性判别函数及其应用。
class = classify(sample,training,group) classifies each row of the data in sample into one of the groups in training. sample and training must be matrices with the same number of columns. group is a grouping variable for training.

2. 距离判别的基本步骤总结
(i)估计总体G1, G2的均值与协方差
(ii)根据总体G1, G2的均值与协方差计算判
别函数W(x)
(iii)根据判别函数W(x)的符号(>0,<0,=0)
确定样本x到底是属于G1,G2还是不确定。
四. 判别分析举例
例1(书P143例6.1)
已知两组分别受到SO2和HCI污染的植物 样本,试根据这两组已知样本对3个新测 的植物样本进行判别,确定它们到底是 受到受到SO2还是HCI污染?
24.0 26.1 27.9 27.4
1.63
1.75 1.50 1.48 1.35
1.09
1.00 0.86 0.91 0.97
1.59
1.41 1.39 1.28 1.35
3
3 2 2 2
16
17 18 19 20
80.25 9.87
10.0 5 12.3 78.98 0 11.2 73.56 8 10.8 70.14 7 75.68
(续表) 序号 1
待判样本 (X)
叶色指数 植株生长指数 9.2 8.6 11.2 19 19.6 30.3
2 3
二、判别分析的概念、原理、分类
1. 描述性定义: 判别分析是在根据历史分类 数据或分类标准,建立分类判别模型并根据判 别模型对新的观测样本进行分类判别。
统计定义:设有k个总体G1, G2, …, Gk, 希望建立一个准则(模型),使得对 任意一个样本x, 依据这个准则(模型) 可以判断其属于那个总体。
第6章 环境判别分析 (Discriminant Analysis)
一、引例:书P143例6.1
已知两组分别受到SO2和HCI污染的植物样本如下,试 根据这两组已知样本对新样本的污染类型进行判定。
序号 G1 第 1组 SO2 污染 G2 第 2组 HCI 污染 1 2 3 4 5 1 2 3 4 5 6 叶色指数 9.6 9.3 8.7 8.8 8.5 10.2 11.3 9.8 7.2 8.5 9.6 植株生长指数 19.6 19.9 18.6 18.9 19.6 30.3 28.7 25.6 27.6 29 30
2. 判别分析的基本原理
按照一定的判别准则,建立一个或多个判别 函数;根据历史数据资料确定判别函数中的 待定系数,确定判别函数。 根据判别函数对待判样本的类别进行判定。
3. 判别分析的分类
(1)根据判别的组数,可以分为两组
判别分析和多组判别分析;
(2)根据判别函数的形式,可以分为线
性判别和非线性判别 (3)根据判别式处理变量的方法, 可以分为逐步判别、序贯判别等; (4)根据判别标准,可以分为 距离判别、Fisher判别、Bayes判别法等
Training=[9.6 9.3 8.7 8.8 8.5 10.2 11.3 9.8 7.2 8.5 9.6 19.6 19.9 18.6 18.9 19.6 30.3 28.7 25.6 27.6 29 30];
%待判样本数据( Sample data): 新的观测 样本数据,共3个待判样本 Sample=[9.2 8.6 11.2 19 19.6 30.3];
1 2 3 4 原 始 样 本 5 6 7
X1
97.3 8 98.1 0 96.4 5 95.3 0 94.8 7 93.1 5 91.5 7 90.7 8 87.6 9 89.3 4
X2
2.12 3.65 3.14 3.87 4.03 5.35 4.89
X3
21.5 19.5 18.0 22.0 23.1 22.7 22.2
解法二、Matlab函数
classify;
Matlab
Matlab函数classify()


Syntax
class = classify(sample,training,group) class = classify(sample,training,group,'type') class = classify(sample,training,group,'type',prior) [class,err] = classify(...) [class,err,POSTERIOR] = classify(...) [class,err,POSTERIOR,logp] = classify(...) [class,err,POSTERIOR,logp,coeff] = classify(...)
从而判别函数:
1 W ( x) ( x μ)'Σ ( μ1 μ2)
1.0817 x1 9.2067 5.3240 x 2 23.9267
将3个待判的样本数据分别代入到上面的判别函 数中,可以分别求得函数值为: W1=26.2223,W2=22.3789,W3=-31.7753 W10,W20,W3 <0,根据判别函数的定 义,可以判定样本1、样本2属于G1,样本3属 于G2。


(Training (Sample
待 判 样 本
2 3
8.6 11.2
19.6 30.3

class = classify(sample,training,group,'type') allows you to specify the type of discriminant function.


type is one of the following:
linear’ diaglinear quadratic diagquadratic
例6.1的Matlab程序
%训练样本数据(Training data):历史 数据,第1组5个样本,第2组6个样本, 两组拼在一起共11个样本!
例2:书P153例6.3
南方矿业集团下属企业的3个矿井的安全评价: 根据南方矿区的特点和历史经验,采取的评价 因素为6个指标,原始样本数据和对应的安全评 级见下表。 现在3个新样本(矿井)的数据已 经取得,请根据原始样本数据和对应的安全评 级对3个矿井进行评级。
历史数据及对应的安全评级
矿井编 号
X4
2.87 3.35 3.50 2.56 2.01 2.32Βιβλιοθήκη Baidu2.21
X5
1.40 1.31 1.20 1.25 1.17 1.19 1.13
X6
1.83 2.24 1.94 2.50 1.79 1.72 1.68
等级
5 5 5 5 4 4 4
8
9 10
5.87
6.17 7.32
23.8
25.9 24.3
三、距离判别分析 (本章重点,以两总体为例,P140)
1.基本原理:对两个总体 G1, G2 和待判样本 x, 先定义一个样本到总体 的距离d(x,G1), d(x,G2), 然后根据距 离的大小决定x到底属于哪个样本。

设有两总体G1和G2,x是一个p维的样本,若能定 义样本x到总体G1和G2的距离d(x, G1)和d(x, G2) , 则可用如下的规则进行判别:若样本x到总体G1的 距离小于到总体G2的距离,则认为样本x属于总体 G1 ;反之,则认为样本x属于总体G2 ;若样本x到 总体G1和G2的距离相等,则让它待判。这个准则 的数学模型可描述为:
相关文档
最新文档