蠓虫分类问题的数学模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蠓虫分类问题的数学模型
摘要:
本文针对Af和Apf两类蠓虫的分类问题分别利用马氏距离法、Fisher判别法和Bayes判别法建立了三个数学模型。

首先,利用马氏距离公式建立起样本到两类间距离公式,通过两个距离的大小,样本靠近哪个样本,则判给哪个样本。

再采用Fisher判别法,将所有可能组合构成的区域R n分成两个互不相交的部分,则未知类别的样品落在哪个部分,就判属于那一类。

建立此模型的主要目的就是为了将R n划分成两干个互相不重叠的部分,即找出区域分界面,在数学上就是找出曲面的函数,即判别函数。

最后,再结合实际情况,根据误判对损失的影响大小利用Bayes判别法对于以上建立的模型进行优化与改进,是各种损失按概率的加权求和达到最小
1.问题重述
两种蠓虫Af和Apf巳由生物学家W.L Grogan和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分。

现测得6只Apf和9只Af 蠓虫的触角长度和翼长识别的依据是蠓虫的触角和翅膀的长度的数据(见下表),现在要根据数据,制定一种方法,正确区分两类蠓虫;并且将建立的模型将用于已知触角长和翼长三个待定的样本进行识别。

且在假设Af 是宝贵的传粉益虫,而Apf是某种疾病的载体的情
2.模型的假设和符号的设定
2.1.模型的假设
(1)任意的触角长度和翼长属于Af和Apf的概率相等;
(2) 任意触角长度和翼长随机组合;
(3) 两类蠓虫总体都服从二维正态分布;
(4) 同一种误判造成损失相等; 2.2符号的说明
(1)i G :表示总体,i=1,2;
(2)2(,)i d x G :x 到i G 的马氏平方距离,i=1,2; (3)()i W x :判别函数,i=1,2; (4)()i f x :总体i G 的概率密度函数;
(5)(|)c i j :将来自j G 的样品误判来自于i G 后带来的损失。

其它需要用到的符号,在后面再做说明。

3.模型准备
之所以将蠓虫归为同一类(Af 或Apf ),是因为它们之间有相同或相近之处,从指标上来讲大小比较接近。

而本题的指标有两个(触角长和翼长),对于接近长度应有个准确的算法。

如果用欧氏距离为各指标差的平方和,显然不尽合理。

因为所选单位或类型不同(如米与厘米,质量与体积),对同样两个样品前后的欧氏距离影响很大,且不同的样本点之间的距离的变化不均匀。

为克服这一不应有的现象,可以采用马氏距离
对于触角长和翼长两个指标,它们对于判别样本x 属于哪 一类,一般都有影响。

但一般影响不会相同,总有一些指标影响大,一些指标影响小,因此按主要指标进行判别效果应比较好。

同时,由于指标之间有一定的相关性,因而主要差异并不一定是某个指标,而经常是指标之间的某个线性组合。

只有在这个方向上,样本点分得最开,因而容易区分。

以下Fisher 判别法将这一思想付诸实施,将所有样本上点向某一条直线投影,在这条特殊的直线上,样本的投影点最分散,最能清楚的反应出分类情况。

3.模型的建立
模型一:马氏距离判别法 (1):下面给出相关定义:
定义:若x 、y 来自均值向量为μ、协方差矩阵为∑的总体的
两个样本,则x 、y 之间的马氏平方距离为:1
2(,)()()d x G x x y μ-T =--∑,x 与G 的马氏平方距离为:1
2(,)()()d x G x x μμ-T =--∑。

(2):距离判别的思想:
有两个总体,给定一个待判样品,我们要判断它来自哪个总体,
通过比较样本到总体的距离大小,距哪个总体距离小就属于哪个总体。

这里都是基于马氏平方距离。

(3):距离判别模型:
因为两总体协方差相等,即有12==∑∑∑,所以x 到两总体马
氏平方距离的差为:
2212(,)(,)d x G d x G -=1
1
2222T T x μμμ---+∑

1
1
1112T T x μμμ--+-∑∑
记:
{
1
1
11111111
1
211122222222
2()a a b ()a a b T T
T T x x b x x b μμμμμμ----=+==-=+==-∑
∑∑

W ,其中,W ,其中,
再结合上面距离判别思想很容易有下面的距离判别准则:
{
112221,()(),()()x G x x x G x x ∈≥∈<若W W 若W W
实际生活中,总体的分布往往是不知道的,我们只有根据样本去判断总体,所以我们只有用估计值代替上面各个式子中的相关变量,假设(1)i x ,i=1,2…,1n 是来自1G 的样本,(2)i x ,i=1,2,…,2n 的样本,我们
用1ˆμ
、2ˆμ、1S 、2S 、S 分别来估计总体的均值、协方差,即用它们分别替换上面式子中的1μ、2μ、1∑、2∑、∑,其中:
1
1
(1)(1)11n 1
ˆn i i x
x μ
===∑,2
2
(2)(2)1
2n 1
ˆn i i x
x μ
===∑,
1
(1)(1)(1)(1)11
11
()()1n T i i i S x x x x n ==---∑, 2
(2)(2)(2)(2)21
21
()()1n T i i i S x x x x n ==---∑, 112212(1)(1)ˆ2
n S n S S n n -+-=∑
=+-。

模型二:Fisher 判别方法
(1)设从两类蠓虫Af 和Apf 中抽取了若干样品(n 围向量) Af 类 G 1:x i
(1)
(i=1、2、3......m 1)
Apf 类G 2:x i
(2)
(i=1、2、3......m 2)
其中 m=m 1+m 2
令a 为R n 中任一方向,则R n 中点x 在这条直上的投影是U (x )=a ′x ,这时上述数据在a 上的投影为: Af 类 G 1:a ′x i
(1)
(i=1、2、3......m 1) Apf 类G 2:a ′x i
(2)
(i=1、2、3......m 2)
样本组间方差:
G=∑m α (a ′x p (α)
−a ′x p )22α=1=a ′[∑m α(a ′x p (α)
−a ′x p )2α=1(a ′x p (α)

a ′x p )′]a ≜a ′Ba
样本组内方差:
E=
∑m α (a ′x p (α)−a ′x p )22α=1=
a ′[∑∑m α(a ′
x p (α)

m αi=12α=1a ′x p )(a ′x p (α)
−a ′x p )′]a ≜a ′Da
(注:x p 指 平均值) (2)使
G E
=
a ′Ba a ′Da
达最大值的L 即为所求的方向,在根据统计知识知:
F=G (k−1)⁄
E (m−k)⁄=(m−k)G (k−1)E =(m−k)(k−1)L ′DL L ′DL
~F k−1,m−k 因而可以通过查表以决定根据显著性水平这些样本点在L 上的投影是否可以分类。

若可以分类,再求判别函数分界点。

一般可取两类样本点的样本均值投影连线的中点或某一定比分点作为分界点。

如k=2时第一类样本点均值x p
(1)
,第二类样本点均值x p
(2)
,分界点可取为
L ′=
x p
(1)
+x p (2)
2
4.模型优化
(1) 采用Bayes 判别法原因:
以上两种判别方法均从几何上空间分布来判别,其建立的几何模型在分布上有交叉的区域,如此则会造成误判。

考虑实际情况,则不能仅仅根据出现概率判断,如一火箭发射时成功概率为90%失败概率为10%,则不能判为成功否则将会造成上亿元的损失。

考虑到Af 是宝贵的传粉益虫,Apf 是某种疾病的载体,可以采用Bayes 判别法对模型进行优化。

(2) 用Bayes 判别法进行优化:
对于2维指标观测值,它的取值空间是2维欧氏空间2R ,一个判别法实质上是对空间的一个划分,记为12(,)R R R =
1
21
2,R R R R R ==Φ
故一个划分12(,)R R R =相当于一个判别准则。

在准则R 下,将本属于总体Gi 的样品错判为来自其它总体造成的平均损失为:
1(,)(|,)(|)k
i j l l i R P j i R c j i ===∑
当样品属于总体Gi 的先验概率为pj ,平均误判损失为:
1
11
(|)(|,)k
k
k
i i i i i j L p l p c j i P j i R =====∑∑∑
一个最优的划分应使误判的平均损失L 达到最小。

故Bayes 判别即寻求12(,)R R R =使平均误判损失达到最小
在判别准则R 下,将属于总体G1的样品误判为属于总体G2的误判概率和误判损失分别为:
2
1(2|1,)()R P R f x dx =⎰
在判别准则R 下,将属于总体G2的样品误判为属于总体G1的误判概率和误判损失分别为:
1
2(1|2,)()R P R f x dx =⎰
平均误判损失为:
1212(1|)(2|)(2|1)(2|1,)(1|2)(1|2,)L p l R p l R p c P R p c P R =+=+
现在求12(,)R R R =使平均误判损失达到最小
121212(1|)(2|)
(2|1)(2|1,)(1|2)(1|2,)[(2|1,)(1|2,)]L p l R p l R p c P R p c P R c p P R p P R cp *
=+=+=+=
使平均误判损失达到最小也就是使误判概率p*达到最小
2
1
1
1
1
2
1
1211222211122222111
(2|1,)(1|2,)()()()()()()(()())R R R R R R R p p P R p P R p f x dx p f x dx
p f x dx p f x dx p f x dx p f x dx
p f x p f x dx p *=+=+=-++=-+⎰⎰⎰⎰⎰⎰⎰
若2211()()p f x p f x ≤时,可使误判概率p*达到最小
{
2211122112(x)(x),x G (x)>(x),x G f f f f ≤∈∈若p p 则若p p 则
由后验概率的表达式可得
{
121122P(G |x)P(G |x),x G P(G |x)<P(G |x),x G ≥∈∈若则若则
误判损失相等,即c(2|1)=c(1|2)时 判别函数为:
111111111111(),,ln 2|1)2
T
T W x a x b a b c p μμμ--=+=∑=-∑+其中(()
112222222221(),,ln (1|2))2
T
T W x a x b a b c p μμμ--=+=∑=-∑+其中(
判别准则为:
{
112221,()(),()()x G x x x G x x ∈≥∈<若W W 若W W
用1ˆμ
、2ˆμ、1S 、2S 、S 分别来估计总体的均值、协方差,即用它们分别替换上面式子中的1μ、2μ、1∑、2∑、∑。

判别准则为:
{
121
122P(G |x)P(G |x),x G P(G |x)<P(G |x),x G ≥∈∈若则若则
另外,后验概率的估计为:
2
22
1
21ˆexp(())
2ˆ{|}1,211ˆˆexp(())exp(())22
j j
d x P G x j d x d x -==-+-,
其中()()21ˆ()()()ln ||2ln (1,2)j j T j j j j
d x x x S x x S p j -=--+-=
5.模型求解
现在,对蠓虫分类问题用以上的模型分别求解得到的结果整理如下: 1、用距离判别模型:
在协方差矩阵相等的假设下,得到的线性判别函数为:
{
112212()153.13938121.7370674.38507()147.2678563.50062112.44374x x x x x x =-++=-++W W
将训练样本的数据代入上面判别函数,结合判别准则,得到判别结果:
将待判样品数据代入上面判别函数,3个样品都判为Apf ; 待判样品结果:
2、用Bayes 判别模型 判别结果为:
3个待判样品的结果为:
6.模型分析
运用其中两种模型求解结果相同,说明以上建立的数学模型具有一定的合理性。

其中优化后的Bayes判别法较前两种方法(马氏距离法、Fisher判别法),更贴切于实际,不简单地从几何距离给以分类,而是考虑到实际损失,因此更具有实际意义。

7.参考文献
<1>朱道元《数学建模精品案例》南京东南大学出版社1999年8月出版
<2>韩中庚《数学建模竞赛获奖论文精选与点评》北京科学出版社2007年5
月出版
<3>周义仓郝孝良《数学建模实验》西安西安交通大学出版社2000年1月
出版
辽宁科技大学试点10.2:王腾
2011年4月16日。

相关文档
最新文档