第七章 多元统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

注 判别准则(1)式或者(2)式将m维空间Rm划分 成两部分: D1 { X | W ( X ) 0 }, D 2 { X | W ( X ) 0} 距离判别的实质就是:给出空间Rm的一个划分 D1,D2 ,如果样品X落入之D1中,则判定 X G1 ; 如果样品X落入之中D1,则判定 X G 2.
3.1.2
多总体的距离判别
G 设有k个m元总体: 1 , G 2 , , G k ,它们的均值
为: i ( i 1, 2 , , k ),协方差为: i ( i 1, 2 , , k ) .
对于新的样品X,需要判断它来自那个总体. 对于多个总体的情况,完全类似于两个总体的处 理过程,步骤如下: 第一步:计算样品X到每个总体的马氏距离;
X
i j i i i T
( x j 1 , x j 2 , , x jm )
其中i表示来自哪个总体, j表示来自总体Gi的样本
量, 表示每个样本的维数.
目录 上页 下页 返回 结束
X G1 2
A ∑1=∑2=∑时的判别方法 要判断新样品X来自哪个总体,只要分别计算新样 品到两个总体的马氏距离 d 2 ( X , G 1 ) 和 d 2 ( X , G 2 ) :
后用你认为满意的方法,对另外20个未标明类别
目录 上页 下页 返回 结束
的人工序列(标号21—40)进行分类,把结果用 序号(按从小到大的顺序)标明它们的类别(无 法分类的不写入): A类 ; B类 . 问题二:请对 182个自然DNA序列进行分类. 它 们都较长. 用你的分类方法对它们进行分类,并 给出分类结果.
联系题目中所给的背景知识,对该问题我们有了
目录 上页 下页 返回 结束
清晰的认识:根据所给的20个已知类别的DNA序 列所提供的信息, 对另外20个未标明类别的DNA 序列进行分类,进而对182个自然DNA序列进行 分类! 如果将每一个DNA序列都看作样本,那么该问题 就进一步提炼成一个纯粹的数学问题: 设有两个总体(类)G1和G2,其分布特征(来自各个
目录 上页 下页 返回 结束
译这部“天书”是二十一世纪最重要的任务之一. 在这个目标中,研究DNA全序列具有什么结构, 由这4个字符排成的看似随机的序列中隐藏着什 么规律, 又是解读这部天书的基础,是生物信息 学 (Bioinformatics) 最重要的课题之一. 虽然人 类对这部“天书”知之甚少, 但也发现了DNA序 列 中的一些规律性和结构. 例如,在全序列中有一
(3)
目录
上页
下页
返回
结束
1, 2 , 1, 2
C 1 , 2 , 1 , 2 的估计 在实际应用中,总体的均值和协方差阵一般是未 知的,我们所知道的仅仅是一组样本或者观测值, 在这种情况下,就需要利用数理统计的知识,对
1 , 2 , 1 , 2 进行估计,根据已知样本,其无偏估计:
d i ( X )( i 1, 2 , , k )
目录 上页 下页 返回 结束
2
第二步:比较的 d i2 ( X )( i
1, 2 , , k ) 大小,将样品
判为距离最小的那个总体. 如果均值 i ( i 1, 2 , , k ) 和协方差 i ( i 1, 2 , , k )
目录 上页 下页 返回 结束
样本的类别进行预测. BP神经网络可以用以解决 上面的DNA序列分类问题, 但是, 如何提取特征、 如何提高网络的训练效率、如何提高网络的容错 能力、如何建立网络结构是能否成功解决DNA序 列分类问题的关键所在;聚类分析和判别分析都 是多元统计分析中的经典方法,都可以用来将对 象(或观测值)分成不同的集合或类别,但是,聚
目录
上页
下页
返回
结束
3.2 贝叶斯判别 所谓贝叶斯(Bayes)判别,就是在考虑各总体的先 验概率和错判损失情况下,给出空间的一个划分:
D { D1 , D 2 , , D k }
使得运用此划分来判别归类时,所带来的平均错 判损失最小.
目录
上页
下页
返回
结束
贝叶斯(Bayes)判别问题的数学描述为: 设有k个m维的总体 G1 , G 2 , , G k ,其密度函数分 别为 f1 ( x ), f 2 ( x ), , f k ( x ) ,若已知这个总体各自 出现的概率(先验概率) q1 q 2 , , q k ( q i 0 且 q i 1 ) 假设已知将本来属于总体Gi的样品错判为总体Gj 所造成的损失为 L ( j | i )( i ,
( 1 2 ),
W (X )
T
1
( 1 2 ).

(X )
上面判别式可以进一步简化为
X G1 , X G2, 如果 W ( X ) 0 如果 W ( X ) 0
(2)
通常地,a称为判别系数向量,W 称为线性判别函数.
目录 上页 下页 返回 结束
哪个总体.
目录 上页 下页 返回 结束
根据判别规则不同,可以得到不同的判别方法, 例如,距离判别、贝叶斯(Bayes)判别、费希 尔(Fisher)判别、逐步判别、序贯判别等. 这里, 我们简单介绍三个常用的判别方法:距离判别、 贝叶斯(Bayes)判别和费希尔(Fisher)判别.
目录
上页
下页
返回
在着局部的和全局性的结构,充分发掘序列的结
目录 上页 下页 返回 结束
构对理解DNA全序列是十分有意义的. 作为研究DNA序列的结构的尝试,试对以 下序列进行分类: 问题一:下面有20个已知类别的人工制造的序列 (见附件1),其中序列标号1—10 为A类,11-20为 B类. 请从中提取特征,构造分类方法,并用这些 已知类别的序列,衡量你的方法是否足够好. 然
X
1 n1 n1

1 n1

j 1
X
1 j
S n1
2 j
1
1
1
(X
1 j
X )( X
1
1 j
X )
1 T
X
2

1 n2

j 1
n2
X
S
2

1 n2 1

j 1 n2
(X
来自百度文库
2 j
X )( X
下页
2
2 j
X )
2 T
j 1
目录 上页 返回 结束
i ( i 1, 2 , , k )
未知,可以类似两个总体的情形运用训练样本来 进行估计.
目录
上页
下页
返回
结束
3.1.3
距离判别的不足
距离判别方法简单实用,容易实现,并且结论的 意义明确. 但是,距离判别具有明显的缺憾,因 为这种判别方法没有考虑: (1) 没有考虑各总体本身出现的可能性; (2) 错判造成的损失在距离判别中也没有考虑. 为了克服这些不足,下面介绍Bayes判别.
2 2
(1)
进一步计算X到各总体的马氏距离,可得
目录 上页 下页 返回 结束
d ( X , G1 ) d ( X , G 2 )
( X 1 ) 2
T T 1
2
2
( X 1 ) ( X 2 )
T
1
(X 2)
(X )
其中
1 2
协方差阵为
,则样品
1
到总体的马氏距离定义为
d ( X ,G ) ( X )
2 T
(X )
显然,当
I
(单位矩阵)时,马氏距离就退化为
欧几里得距离. 下面的讨论均在马氏距离意义下.
目录 上页 下页 返回 结束
3.1.1
两总体的距离判别
先考虑两个总体(k=2)的情形. 设有两个总体G1 和G2, ∑1和∑2分别是G1和G2的协方差阵,µ 1 和µ 译分别是G1和G2的均值.对于新的样品X,需 2 要判断它来自那个总体. 设来自Gi (i=1,2)的训练样本为
数学建模简明教程
国家精品课程
第七章 多元统计分析
一、问题引入 二、思路点拨 三、判别分析方法 四、DNA序列分类问题的求解
目录
上页
下页
返回
结束
一、问题引入与分析
2000年“网易杯”全国大学生数学建模竞赛 的 A题是关于“DNA序列分类”的问题 : 人类基因组中的DNA全序列是由4个碱基 A, T, C, G按一定顺序排成的长约30亿的序列, 毫无 疑问, 这是一本记录着人类自身生老病死及遗传 进化的全部信息的“天书”. 但是, 除了这四种碱 基 碱基外, 人们对它所包含的内容知之甚少,如何破
类分析更侧重于“探索”对象(或观测值)的自 然
目录 上页 下页 返回 结束
分组方式,而判别分析则侧重于将未知类别的对 象 (或观测值) “归结” (或者说, 分配) 到已知类 别 中. 显然,判别分析更适合用来解决上面的DNA 序列分类问题.
目录
上页
下页
返回
结束
三、判别分析方法
判别分析是用于判别样品所属类别的一种多元统 计分析方法. 判别分析问题都可以这样描述:设 有k个m维的总体G1,G2,…,Gk,其分布特征已知 (如已知分布函数分别为或者已知来自各个总体 的样本),对定的一个新样品,需要判断其属于
目录 上页 下页 返回
2
2
2
2
结束
在欧几里得距离的定义下,考虑下面问题:设有 两个正态总体 G1,G2, X ~ N ( 1 , ) Y ~ N ( 2 , 6 )
2 2
现在有一个样品位于A处,从图中不难发现:
目录
上页
下页
返回
结束
A到G1的中心欧几里得距离比到G2中心的欧几里 得距离近,是否A处的样品属于总体呢? 不是. 因为从概率的角度来看,总体G2的样本比较分散, 而总体G1的样本则非常集中,因此A处的样品属 于总体G2的概率明显大于属于总体G1的概率, 也就是说,A处的样品属于总体G2的“可能性” 明 显大于属于总体G1的“可能性”!
如果 d ( X , G 1 ) d ( X , G 2 )
则判定 X G 2,即
X G1 , X G2 ,
2
2
2
则判定 X G1 ;反之,
2
如果 d ( X , G1 ) d ( X , G 2 ) 如果 d ( X , G1 ) d ( X , G 2 )
用欧几里得距离来度量样品到总体的距离具有局限性.
目录 上页 下页 返回 结束
马氏距离 定义:设总体G为m维总体(个因素或指标),其均 值向量为
( 1 , 2 , , m )
( ij ) m m
T
(这里T表示转置),
X ( x1 , x 2 , , x m )
T
结束
3.1
距离判别
距离判别的基本思想是:样品离哪个总体的距离 最近,就判断属于哪个总体. 我们首先考察欧几里得距离的情形: 在m维空间Rm中,两点与的欧几里得距离(也就 是通常我们所说的距离)定义为
d ( X , Y ) ( X 1 Y1 ) ( X 2 Y 2 ) ( X m Y m )
些是用于编码蛋白质的序列片段,即由这4个字
目录 上页 下页 返回 结束
符组成的64种不同的3字符串,其中大多数用于 编码构成蛋白质的20种氨基酸. 又例如,在不用 于编码蛋白质的序列片段中,A和T的含量特别 多些,于是以某些碱基特别丰富作为特征去研究 DNA序列的结构也取得了一些结果. 此外,利用 统计的方法还发现序列的某些片段之间具有相关 性,等等. 这些发现让人们相信,DNA序列中存
目录
上页
下页
返回
结束
B ∑1≠∑2 时的判别方法
根据(1)式,类似可以给出判别函数W(X)为
W ( X ) ( X 1 ) 1 ( X 1 ) ( X 2 ) 2 ( X 2 )
T 1 T 1
相应的判别规则为
X G1 , X G2 , 如果 W ( X ) 0 如果 W ( X ) 0
总体的样本)已知,对给定的新样品,我们需要
目录 上页 下页 返回 结束
判断其属于哪个总体(类). 对此类数学问题,有很多成熟的方法,如: 1) BP神经网络; 2) 聚类分析; 3) 判别分析; 如何选取方法是建模中需要解决的另一个问题: BP神经网络是人工神经网络的一种,它通过对训
练样本的学习,提取样本的隐含信息,进而对新
DNA序列网址: http://www.mcm.edu.cn/mcm00/problems.htm
目录 上页 下页 返回 结束
二、思路点拨
在着手解决上面所提问题之前,我们不妨有意的 撇开问题的实际背景,直奔主题——这样处理将 有助于我们迅速的抓住问题的经脉!细读全题, 不难发现,该问题的本质就是要求大家根据已有 的信息对未知事物进行分类!认清了这一点,再
相关文档
最新文档