19398-数学建模-DNA序列分类模型
DNA序列的分类模型
20
数 学 的 实 践 与 认 识
31 卷
对于这样的一个复杂的分类问题, 需要考虑的因素很多, 也是就说, 可供我们使用的分 类特征有许多. 如何从众多的因素中提取分类的主要因素, 是我们处理这个问题的困难之 处 . 上面的第一个条件是我们的分类方法所必须满足的, 可以看作是个限制条件; 而第二个 条件是我们在设计分类方法时必须考虑到的, 可以看作是对分类方法优劣的一种衡量, 是 某种意义下的目标函数.
3 分类的标准及评价
首先, 我们提取的特征应该满足以下两个条件: ( 1) 所取特征必须可以标志 A 组和 B 组 . 也就是说, 我们利用这些特征应该可以很好 的区分已经标示分类的 20 个序列. 这是比较显然的一个理由 . ( 2) 所取特征必须是有一定的实际意义的 . 这一点是决不能被忽视的 . 比如, 如果不考 虑模型的实际意义, 我们就可以以序列的开头字母为分类标准: 已知在 B 类中的十个序列 都是以 g t 开始的, 而已知在 A 类中 10 个序列没有以 g t 开始的, 甚至以 g 开始的都没有. 显然这是满足上面的第一个条件的. 如果仅因此就认为这种特征是主要的, 并简单的利用 这个特征将所有待分类的序列分成两类, 显然是不甚合理的 .
10 10
为归一化后的向量. 为此, 我们计算内积和 ∑C A i 与∑C
i= 1 i= 1
B i , 其中内积定义为欧氏度
量引导出的内积 ( c1 , c2 , c3 , c4 ). ( a 1 , a 2 , a 3 , a 4 ) = c1 a 1 + c2 a 2 + c3 a 3 + c4 a 4. 即 ( P A , P G , P T , P C ) A ( P A , P G , P T , P C ) 未知 内积 = A 未知 内积小的两个序列, 我们可以认为它们的相关性小, 而内积大的序列, 我们就认为其相
DNA序列的分类模型
11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatt tatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatattt att 12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggt aagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagtt aaa 13.gtattacaggcagaccttatttaggttattattattatttggatttttttttt ttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaat gc 14.gttagtcttttttagattaaattattagattatgcagtttttttacataaga aaatttttttttcggagttcatattctaatctgtctttattaaatcttagagata tta 15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgttt aaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa
16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaatt ggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat 17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatcta tggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcg gcctatccc 18.gttaattatttattccttacgggcaattaattatttattacggttttatttaca attttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt 19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctga gtttttattcttactttttttcttctttatataggatctcatttaatatcttaa 20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaact gtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat
2000年全国大学生数学建模大赛A题各类优秀论文简介
DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的 Neural Network Toolbox(神经网络工具箱 )中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
DNA序列的分类模型
2000年论文选附2001年全国大学生数学建模竞赛题目(本科组)全部题目(包括数据)可以从以下网址下载:/mcm 网易教育频道A题血管的三维重建·断面可用于了解生物组织、器官等的形态。
例如,将样本染色后切成厚约如m的切片,在显微镜下观察该横断面的组织形态结构。
如果用切片机连续不断地将样本切成数十、成百的平行切片,可依次逐片观察。
根据拍照并采样得到的平行切片数字图象,运用计算机可重建组织、器官等准确的三维形态。
假设某些血管可视为一类特殊的管道,该管道的表面是由球心沿着某一曲线(称为中轴线)的球滚动包络而成。
例如圆柱就是这样一种管道,其中轴线为直线,由半径固定的球滚动包络形成。
现有某管道的相继100张平行切片图象,记录了管道与切片的交。
图象文件名依次为0.bmp、1.bmp、…、99.bmp,格式均为BMP,宽、高均为512个象素(pixel)。
为简化起见,假设:管道中轴线与每张切片有且只有一个交点;球半径固定;切片间距及图象象素的尺寸均为1。
取坐标系的Z轴垂直于切片,第1张切片为平面Z=0,第100张切片为平面Z=99。
Z=Z 切片图象中象素的坐标依它们在文件中出现的前后次序为(—256,—256,Z),(—256,—255,Z),…(—256,255,Z)(—255,—256,Z),(—255,—255,Z),…(—255,255,Z)……(255,—256,Z),(255,—255,Z),…(255,255,Z)。
试计算管道的中轴线与半径,给出具体的算法,并绘制中轴线在XY、YZ、ZX平面的投影图。
下面是100张平行切片图象中的6张,全部图象请从网上下载。
关于BMP图象格式可参考:1.《VisualC+ +数字图象处理》第12页2.3.1节。
何斌等编著,人民邮电出版社,2001年4月。
2.http:///home/mxr/gfx/2d/BMP.txtB题公交车调度公共交通是城市交通的重要组成部分,作好公交车的调度对于完善城市交通环境、改进市民出行状况、提高公交公司的经济和社会效益,都具有重要意义。
DNA序列研究数学建模问题
题目 DNA 序列摘要本文主要研究DNA 序列的结构问题,通过建立相应的数学模型,对DNA 序列中所隐藏的规律进行研究和分析,给出了解决问题的最优方案,并且对模型进行了评价和推广。
对于问题一,为了挖掘DNA 序列的特征将其分为A 类和B 类,以20种基本氨基酸为目标,利用Matlab 软件编程得出每一行每一种氨基酸出现的概率;再运用主成分分析法进行降维,利用SPSS 软件进行数据处理得到矩阵;然后再将模糊聚类问题转化为如下优化问题:2111min (,)(())..1(1,2,6)01n cq ik ik k i cik i ik J U V u d s t u k u ======≤≤∑∑∑用模糊聚类分析方法来获取样本与聚类中心的加权距离最小的最佳分类,使其分题一相同的方法进行分类,分类结果见问题二的求解。
总的来说,本模型在未知数据特征的情况下很好的将数据进行分类,成功地解决了此次数学建模的DNA 序列问题,是聚类分析问题的一个有效而且具有较强实用性的方法。
关键词:主成分分析 模糊聚类分析 Matlab 软件 Spss 软件一、问题重述1.1背景分析随着DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。
如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。
本文主要致力于对DNA序列结构以及序列中所隐藏规律的研究。
1.2问题重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
DNA序列问题模型详解
2015年芜湖三校数学建模竞赛题目 DNA序列问题模型摘要DNA 序列是由A,T,G,C 四个表示4 种碱基的字符组成的序列。
本文研究DNA 序列的结构找出序列间的差异和对八个物种的DNA序列进行分类。
对于问题一首先对数据运用数理统计方法对数据进行计算,得到八个物种的DNA序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱基的丰度之比的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的DNA序列间的差异:Human 、Opossum、 Lemur 、Rat等4种DNA序列的长度相同,其他四种DNA序列的长度各不相同,每种DNA序列四种碱基的的重复情况也各不相同;G碱基的丰度相对于本序列的其他碱基的丰度都要高,碱基A的丰度在各个序列中丰度差不多,其他三种碱基在序列中波动性较大,差异性较大;8种DNA序列中GG、GT的相邻的状况比较明显;各个DNA序列中碱基丰度比f、GT f、CT f含量差不多且都含量比较高;其中,DNA序列中TA f、CA f、GCf含量差不多且都含量比较低。
GA对于问题二我们首先通过对问题一散点图的分析选取以碱基的丰度和碱基间的丰度之比为分类的指标,构建为分类的特征向量,但这些特征向量之间存在着一定的相关性,我们运用R型聚类选择出相关性程度差的特征向量为Q型聚类的指标。
通过Q型聚类我们将这8种DNA序列分为3种分类方式,通过利用means方法,检验各类别在所有变量上的差异,再利用单因素方差分析最终确定将8种DNA序列分为四类。
分类结果如下:第一类:Human 、Mouse;第二类:Goat、Rabbit;第三类:Opossum、 Lemur 、Rat ;第四类:Gallus。
关键词:数理统计;R型聚类;Q型聚类;means法;单因素方差分析法1 问题重述DNA 序列是由A,T,G,C 四个表示4 种碱基的字符组成的序列。
研究DNA 序列的结构及序列中隐藏的规律,成为生物信息学的重要研究课题。
DNA序列分类问答的数学模型
2010高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):许昌学院参赛队员(打印并签名) :1. 李淮周2. 赵媛媛3. 王会琪指导教师或指导教师组负责人(打印并签名):日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):2010高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):DNA序列分类问题的数学模型摘要本文首先把问题中的A,B两类DNA系列转换成氨基酸序列,运用系统聚类法,选出由20个不同的DNA序列转换成代表其信息的氨基酸序列。
然后,针对该序列进行特征提取和选择,从而把研究DNA序列的结构转换为分析氨基酸的频率问题。
以20种氨基酸、一个终止符、碱基A与B的含量和频率,作为22个初始特征,利用欧氏距离度量法,借助于计算机和最优法搜索确定出最有效的8个特征。
再采用Fisher判别法,对202个序列进行分类,其中对21~40号人工序列的分类如下:A类:22, 23, 25, 27, 29, 34, 35, 36, 37, 39;B类:21, 24, 26, 28, 33, 38, 40;不能分类的有30, 31, 32。
DNA序列分类
DNA序列分类摘要本文以题目的有关数据为资料,对如何对DNA序列分类进行研究,针对各个问题,我们分别建立了欧氏距离分类模型、马氏距离分类模型、Fisher分类模型多个数学模型,经过严密的理论论证,精确的计算,很好的解决了DNA序列归类的问题。
针对问题一,我们首先根据的相关知识/理论,建立了欧式距离模型模型。
为了解决DNA序列分类,我们运用统计、最优化、特征值提取等数学方法,从已知样本序列中提炼出能较好代表两类特征的关键字符串,我们可以得到量化的分类标准,对所给的DNA序列进行分类。
在问题二中,我们同样采用了问题一中的三种模型,进行检验。
在求解的过程中,我们在数据的处理上不可避免的存在不少误差,我们通过探讨研究,给出了误差分析,分析了其中的误差产生的来源,尽量避免由于误差所造成求解的错误,进而得出了一个较好的方案。
我们还对模型进行改进,通过多个模型的比较,使得模型更加合理,更加切合实际。
从而较好的解决了对各种DNA序列的分类。
关键词:序列分类;特征分析;分类模型;最优分类一、问题的重述㈠背景知识1、DNA序列的概况从2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
2、DNA序列排列原理DNA序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,在DNA全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性。
㈡问题作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。
DNA序列分类模型
DNA序列分类模型
刘丽
【期刊名称】《重庆通信学院学报》
【年(卷),期】2005(32)3
【摘要】本文对2000年全国大学生数学建模竞赛A题DNA序列分类给出了高达92.73%的分类方法,方法简明有效,可作为这一问题的经典解法.
【总页数】4页(P393-396)
【作者】刘丽
【作者单位】合肥工业大学理学院
【正文语种】中文
【中图分类】O29
【相关文献】
1.DNA序列判别分类模型 [J], 王显金;阳军
2.DNA序列判别分类模型 [J], 王显金;阳军
3.基于隐马尔科夫模型的DNA序列分类方法 [J], 郭彦明;陈黎飞;郭躬德
4.基于模糊聚类算法的DNA序列分类模型 [J], 韦相
5.应用LDA模型的DNA序列分类方法 [J], 冯超
因版权原因,仅展示原文概要,查看原文内容请购买。
DNA序列分类的数学模型
第31卷第1期2001年1月数学的实践与认识M AT HEM A TICS IN PRACTICE A ND T HEORYV ol.31 N o.1 Jan.2001 DNA序列分类的数学模型吕金翅, 马小龙, 曹 芳指导老师: 陶大程(中国科学技术大学,合肥 230026)编者按: 本文能从生物学背景提出不同的三种判别模型.建模的分析和文字叙述条理清楚,模型一对21—40和182样本均进行了分类,分类正确率较高.摘要: 本文从三个不同的角度分别论述了如何对DNA序列进行分类的问题,依据这三个角度分别建立了三类模型.首先,从生物学背景和几何对称观点出发,建立了DNA序列的三维空间曲线的表达形式.建立了初步数学模型-积分模型,并且通过模型函数计算得到了1到20号DNA序列的分类结果,发现与题目所给分类结果相同,然后我们又对后20个DNA序列进行了分类.然后,从人工神经网络的角度出发,得到了第二类数学模型-人工神经网络模型.并且选择了三种适用于模式分类的基本网络,即感知机模型,多层感知机(BP网络)模型以及LVQ矢量量化学习器,同时就本问题提出了对BP网络的改进(改进型多层感知机),最后采用多种训练方案,均得到了较理想的分类结果.同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的(前四十个).最后,我们对碱基赋予几何意义:A.C.G.T分别表示右.下.左.上.用DNA序列控制平面上点的移动,每个序列得到一个游动曲线,提取游动方向趋势作为特征,建立起了模型函数,同时也得到了后二十个DNA序列的分类结果,而且发现结果与上述两个模型所得到的分类结果几乎相同(其中有一个不同,在本模型中表示为不可分的).此模型保留的信息量更多,而且稳定性更强.1 问题的重述(略)2 基本假设及模型建立:第一类数学模型:积分模型DNA序列是一种用4种字母符号(A、T、G、C)表达的一维链.在这条链上不仅包含有制造人类全部蛋白质的信息(也就是基因),还有按照特定的时空模式把这些蛋白质装配成生物体的四维调控信息(三维空间和一维时间),找到这些信息的编码方式和调节规律是人类基因组研究的首要科学问题.下面我们首先将着手从几何学的角度来分析DNA序列.鉴于自然界对称这一朴素原理,我们的模型始于对4种碱基对称性的考察.图1.1(略)从纯化学的角度,我们可以将碱基进行两类划分:(1)按双环或单环结构,可分为:嘌呤碱基R(A 或G)与嘧啶碱基Y(C或T)(2)按环中对应位置上是否存在氨基或酮基,可分为:氨基碱基M(A或C)与酮基碱基K(G或T)从生物学的角度,在双螺旋结构中,按碱基对形成氢键的数目或强弱,碱基又可分:强氢键碱基S(G或C)与弱氢键碱基W(A或T),这一种划分既包含了化学的也包含了DNA双螺旋的结构信息在内.参照基本粒子理论中的做法,我们利用三维Euclid空间中的对称几何图形——立方体G来表示碱基的上述三种对称性.如图1.2所示,以G的中心为坐标原点建立三维直角坐标系,使G 的三组对面分别与三条坐标轴相垂直.分别与X ,Y ,Z 轴相交的G 的三组对面称为嘧啶/嘌呤面,酮基/氨基面,弱氢键/强氢键面.在G 的六个面中各引一条对角线,使相对面的对角线两两相互垂直,如图1.2所示.在嘌呤面对角线的两端分别标上A 和G ;在嘧啶面对角线的两端分别标上C 和T ,如图1.2所示.显然,此时上述碱基的三种对称关系全部自动成立.而且,六条对角线刚好是正四面体ACGT 的六条棱.图1.2 用立方体表示碱基的三种对称性现在考察一个长为L 的单链DNA 序列,阅读方向不限.从第一个碱基开始,依次考察此序列,每次只考察一个碱基.当考察到第n 个碱基时(n =1,2,…,L ),统计一下从1到n 这个子序列中四种碱基各自出现的次数,并以A n 、C n 、G n 、T n 分别表示4种碱基A 、C 、G 、T 出现的次数,如图1.3所示.显然它们都是非负整数.根据正四面体的对称性我们可以证明,正四面体内存在唯一的一个点P n 与这四个非负整数一一对应.在图1.3所示建立的坐标系之下,点P n 的坐标可用四个非负整数来表达. X n =2(A n +G n )-n ,Y n =2(A n +C n )-n ,Z n =2(A n +Tn )-n ,X n ,Y n ,Z n ∈[-n ,n ],n =1,2,…,L ;其中X n ,Y n 和Z n 为点P n 的三个坐标分量.当n 从1到L 时,我们依次得到P 1,P 2,…,P L 共L 个点.将相邻两点用适当的曲线连接所得到的整条曲线,就成为表示此DNA 序列的P -曲线.可以证明,P -曲线与所表示的DNA 序列是一一对应的,也就是说,给定一定DNA 序列,存在唯一的一条P -曲线与之对应;反之,给定一条P -曲线,可以找到唯一的一个DNA 序列与之对应.换言之,P -曲线很大程度上包含了DNA 序列的内蕴信息.P -曲线471期吕金翅等:DN A 序列分类的数学模型48数 学 的 实 践 与 认 识31卷图1.3 D NA序列示意图是与符号DNA序列等价的另一种几何表现形式.我们的核心想法就是通过对P-曲线的研究来挖掘DNA序列的内蕴信息.P-曲线的三个分量都具有明确的生物学意义:X n表示嘌呤/嘧啶碱基沿序列的分布.当从1到n这个子序列中嘌呤碱基多于嘧啶碱基时,X n>0;否则X n<0;当两者相等时X n =0.同样,Y n表示氨基/酮基碱基沿序列的分布.当在子序列中氨基碱基多于酮基碱基时, Y n>0;否则,Y n<0;当两者相等时Y n=0.Z n表示强/弱氢键碱基沿序列的分布.当弱氢键碱基多于强氢键碱基时,Z n>0;否则,Z n<0;当两者相等时Z n=0.由概率论中的结论:如果任何一种分布均不能由其他两种分布的线性叠加表示出来,则这三种分布是相互独立的.给定的DNA序列唯一的决定了这三种分布;这三种分布唯一的描述了DNA序列.我们对P n的三个坐标分量分别积分,发现Y n、Z n两个方向上并没有什么区别,而在X n 方向上,A组均大于零,B组均小于零.f(t)=∫L0X n(t)d t这表明在整个序列上不同结构的碱基对所占的成分,即A组嘌呤的含量较大,B组嘧啶的含量较大.以“X方向分量大于/小于零”为标准对给出的序列21~40进行分类,得到如下结果: A类:2,3,5,7,9,14,15,17,19;B类:1,4,6,8,10,11,12,13,16,18,20第二类数学模型:神经网络模型由于神经网络具有运用已知认识新信息,解决新问题,学习新方法,预见新趋势,创造新思维的能力,所以我们将神经网络处理问题的方法介入进来,处理模式分类的问题.在本题中,采用如下几种方案:1.单层感知机; 2.双层感知机; 3.改进型双层感知机.4.LVQ矢量量化学习对于每种算法我们又采用了三种统计方案,即:1.统计a c g t在DNA序列中出现的次数(共有4种)2.统计a c g t的两两组合在DNA序列中出现的次数(共有42种不同的组合)3.统计a c g t的三三组合在DNA序列中出现的次数(共有43种不同的组合)所以总共可以得到12种模式分类模型.下面给出详细讨论,但只列出12种方案中的四种,因为剩下八种只是在统计方案上有所不同,其训练实质和学习实质以及最后的模拟实质是相同的,所以不需要一一罗列.第一方案(单层感知机)1.综述:单层感知机是一个具有单层计算神经元的神经网络,并由线形域值单元组成.原始的Perceptron 算法只有一个输出节点,它相当于单个神经元.当它用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开. F.Rosenblatt 也已证明,如果两类模式是线形可分的(指存在一个超平面将它们分开),则算法一定收敛.感知器特别适用于简单的模式分类问题,也可用于基于模式分类的学习控制和多模态控制中.2.修正方案:首先分析问题实质,即采用一个单一神经元解决简单分类问题:将n 个输入矢量分为两类,其中一部分为1,另一部分为0.最后确定网络结构(图1.4):图1.43.训练算法:(采用单层感知机的经典算法,这里略去)判定网络收敛的标准有两种:一是平均平方误差,二是误差平方和.这里采用第二种.学习结束后的网络将学习样本模式以连接权的形式分布记忆下来.当给网络提供一输入模式时,网络将按上式计算出输出值y k ,并可根据y k 为1或0判断出这一输入模式属于记忆中的哪一种模式.4.训练和模拟结果:a)从20个已知结果的DNA 序列中随机选取不同的4个序列(向量)进行训练,再对20个序列(向量)进行重新模拟,其正确率为90%,发现出错的原因在于,第4个和第17个序列在这几种统计方式下具有相似性.b)每次从20个已知结果的DNA 序列中随机选取不同的4个序列(向量)进行训练,共进行两次,再对20个序列(向量)进行重新模拟,其正确率为95%,依然发现出错的原因在于,第4个和第17个序列在这几种统计方式下具有相似性.c)每次从20个已知结果的DNA 序列中随机选取不同的4个序列(向量)进行训练,共进行三次,再对20个序列(向量)进行重新模拟,其正确率为95%,依然发现出错的原因在于,第4个和第17个序列在这几种统计方式下具有相似性.5.结论:数据为线性不可分的,所以单层网络不能实现完全识别.6.优缺点分析:以上采用的是单个神经元的网络进行分类,其优点是运算速度快,但模式分类正确率较低.第二方案(双层感知机,即BP 网络)1.综述:BP 神经网络,由于含有隐藏层,所以可实现非线性分类.BP 算法属于 算法,491期吕金翅等:DN A 序列分类的数学模型是一种监督式的学习算法.2.算法推导:(略)3.网络结构(图1.5):图1.54.训练算法:由于其训练过程与学习过程相似,所以这里不再赘述.5.训练和模拟结果:与第一方案相似,只是分类正确率有所提高.7.结论:本题所给数据是线性不可分的,而且通过简单的模式分类也很难行得通,所以即使用多(双)层网络也难以实现完全识别.8.优缺点分析:以上采用的是多个神经元的带有一个隐藏层的网络进行分类,其优点是运算速度较快,且模式分类正确率较高,但依然存在不可完全识别的问题.第三方案(改进型双层感知机)1.综述:为了改进上述算法的不可完全识别的缺点,现在对网络进行改进,其目的是使网络可以对所有向量进行正确的分类.2.改进的方案:以提取更多的1分类信息为原网络结构与BP 神经网络相似,但随机感知机层的响应函数采用sigmo id 函数.3.训练算法:采用与BP 网络相同的训练算法.4.训练和模拟结果:(分类正确率有所提高,这里略去)5.结论:数据是线性不可分的,而且通过简单的模式分类也很难行的通,所以只是简单改进网络结构,是很难实现完全识别的.所以下面将采用其它方法(LVQ 矢量量化学习)进行模式识别.6.优缺点分析:以上采用的是改进型多个神经元的带有一个隐藏层的网络(也就是改进型BP 神经网络)进行分类,其优点是运算速度较快,且模式分类正确率较高,但依然存在不可完全识别的问题.第四方案(LVQ 学习向量量化)1.综述:学习向量量化(LVQ)是在监督状态下对竞争层进行训练的一种学习算法.竞争层将自动学习对输入向量进行分类,这种分类的结果仅仅依赖于输入向量之间的距离.如果两个输入向量之间特别相近,竞争层就把他们分在同一类.50数 学 的 实 践 与 认 识31卷2.训练算法:(采用经典算法这里略去)3.训练和模拟结果:(分类正确率有所提高,这里略去)4.要想从网络角度和学习算法上调整,使得对已有的数据进行正确分类,必须进行大规模学习,但是如果对所有的样本进行训练再检策网络分类能力,其可信服程度就大大降低了.所以最后将采用改进网络输入的办法,即结合生物学结论.5.优缺点分析:可靠性较高,但算法复杂度较大.第五方案:仅从神经网络结构上的角度考虑,我们发现很难找到一个很好的网络,所以将结合生物学重建神经网络.引用生物学的结论,我们将输入模式变为100*4,其中4表示从20个已知样本中随机抽取4个样本.100表示(A +G )含量的输入序列.采用BP 神经网络结构.训练方案采用方案二中的误差逆传播算法.训练和模拟结果:a)从20个已知结果的DNA 序列中随机选取不同的4个向量进行训练,再对20个向量进行重新模拟,其正确率为95%(较单层感知机有所改进,但与BP 网络和LVQ 向量量化学习是相同的),发现出错的原因是由于学习不充分造成的.其本质是第4组数据和第17组数据可分性不好,所以反应到网络上其可学习性又较大;但如果学习不足,则会导制误判,所以应加大学习力度.b )每次从20个已知结果的DNA 序列中随机选取不同的4个向量进行训练,共进行两次,在对20个向量进行重新模拟,其正确率为100%.这次的结果充分说明了上述问题.结论:目前的方法已很好的解决了分类的问题,所以如果加大训练力度可以对其它数据进行正确率更高的分类.我们对网络进行了100次随机抽取,每次抽取的结果均进行训练,最后对40个数据进行模拟,发现前20个数的输出完全正确,而且发现误差曲线也是十分好的,所以有理由认为这个结论的正确性.模拟结果序列21~40为:A 类:22,23,25,27,29,34,35,37,39;B 类:21,24,26,28,30,31,32,33,36,38,40第三类数学模型:二维随机游动模型以四种碱基分别代表复平面上四个不同的方向,顺序读取DN A 序列,得到一条由原点出发的每次向相应方向移动单位长度的轨迹.发现曲线明显地向两个相反的方向收敛(图1.6)(略).我们依此建立如下的数学模型:设DNA 序列长为L ,记A n ,G n ,C n ,T n 为1到n 这个子序列中碱基A ,G ,C ,T 所出现的次数,令P n 为复平面上的点,且P n =A n +G n i -T n -C n =(A n -T n )+i (G n -C n )=r n e i n ,其中r n =(A n -T n )2+(G n -C n )2, n =A rgP n , =1L ∑Lk =1 K 假设n =0时,A n =G n =C n =T n =0,当n 从0到L 时,在复平面上便得到了L +1个点,并且得到了从原点出发的一条游动轨迹.鉴于幅角信息的突出重要地位,我们依此对DNA 序列进行分类,为了避免那种螺旋轨511期吕金翅等:DN A 序列分类的数学模型迹我们假设DNA 序列可分类,当且仅当 p ∈N ,s.t.当n >p 时∑n i =1i 保持定号.模型一:对20个参数已知的DNA 序列,分别求出其相应的游动方程P n =(A n -T n )+i (G n -C n ),设 ij ,k 为第i 类第j 个DNA 序列的Arg P K i j=1L ∑L k =1 i j ,k ,j =1,2,…,10,i =1,2.在每一类中求出 i min =m in 1≤j ≤10 i j , i max =m ax 1≤j ≤10i j ,从而得到每个类的辐角特征区间[ i min , i max ].如果[ 1min , 1max ]∩[ 2min , 2max ]= ,则对任意DNA 序列,若可分类,则满足 ∈[ i min , i max ]的属于第i 类;否则,不可分类.显然,这时存在着不可分类的情形,这主要是由于我们从DNA 序列样本中提取了两类游动在辐角上的趋势信息并将作为我们进行分类的标准.这一点,在模型二中得到了改进.而实际上L 总有限,前面关于可分类的假设是基于对游动辐角变化总体趋势的一种控制,对于有限而言,对此也有刻画即 p ∈N s.t.当n >p ,辐角保持后续信息.模型二、上面模型一提取了DNA 序列的最本质的辅角特征,这里我们假设各类的DNA 序列的 在如下变换后满足正态分布.首先辐角值可以与复平面中的圆周上的点建立自然的对应关系,并且圆周挖去一点之后同胚于实直线,为方便起见,投影后的点仍用原来的字母表示,从{ i j ∶1≤j ≤10}可得均值 i 和方差 i 及在第i 类的概率密度函数为p i ( )=12ie -( - i )2.任给一个DNA 序列, 它属于第i 类的概率:P i ( )=lim →0+∫ + - p i ( )d ∫+ - [p 1( )+p 2( )]d =p i ( )p 1( )+p 2( )以概率0.5为阀值,如p i ( )〉0.5,则属于第i 类.下面再用区间估计法给出结果在统计意义上的可信度,设n 个相互独立的样本X i ~N (a , 2),i =1,2,…,n ,令Z =(X 1+X 2+…+X n )/n ,则Y =(Z -a )/( 2/n )1/2~N (0,1),但 2未知,必须先把它估计出来,用Sn 2=[(X 1-Z )2+(X 2-Z )2+…+(X n -Z )2]/(n -1)代替 2,(Z -a )/(Sn 2/n )1/2=(Z -a )( 2/n )-1/2/(Sn 2/ 2)1/2=Y /(S n 2/ 2)1/2,因Y ~N (0,1),(S n 2/ 2)1/2={[(X 1-Z )/ ]2+[(X 2-Z )/ ]2+…+[(X n -Z )/ ]2}/(n -1)~ 2(n -1),因而t =(Z -a )/(S n 2/n )1/2~t (n -1),这里要求Y 与(Sn 2/ 2)1/2相互独立.于是给定 后,查表t (n -1)可得t *,使得P r ( t ≤t *)=1- ,即P r ( Z -a /(S n 2/n )1/2≤t *)=1-,从而我们便得到了a 的1- 水平上的置信区间为[Z -t *S n /n 1/2,Z +t *S n /n 1/2].现在共有10个已知样本点X 1,X 2,…,X 10,为了保证Y 与(Sn 2/ 2)1/2相互独立,现将这10个样本点等分成两组这样便得到Z =(X 1+X 2+…+X 5)/5,Z ′=(X 6+X 7+…+X 10)/5,Y =(Z -a )/( 2/5)1/2,S 52=[(X 6-Z ′)2+(X 7-Z ′)2+…+(X 10-Z ′)2]/(5-1),t =(Z -a )/(S 52/5)1/2,依前所述给定 ,我们可得a 的1- 水平上的置信区间为[Z -t *S 5/51/2,Z +t *S 5/51/2].由该模型可以看出曲线的趋向正代表着序列中所含对应元素的整体含量和分布.当基因序列中所含的非特征随机信息较多时,会导致游动曲线螺旋摇摆情形,从而导致前进距离52数 学 的 实 践 与 认 识31卷变短,但是由随机信号在各方向上的平均性,总体前进方向并未受到影响,故我们只提取方向而忽略距离作为特征信息.我们从不同角度,提取序列整体上和局部之间的特征,建立了以上三种数学模型.三种模型各有优劣,但他们在特征提取,模式识别和分类上的都具有一定的普适性和优越性.参考文献:[1] 郝柏林,刘寄星.理论物理与生命科学.上海科学技术出版社.[2] 金冬燕,金 奇,侯云德.核酸和蛋白质的化学合成与序列分析.科学出版社.The Mathematical Models on the Classificationof The DNA SequencesLU Jin-chi, M A Xiao-long , CA O Fang(T he U niver sity o f Science and T echnolog y o f China ,Hefei 230026)Abstract : T his paper deals w it h the pr oblem of ho w to classify t he D NA sequences fro m thr ee different ang les and acco rdingly est ablishes three kinds of mo dels.F irstly ,on t he point of bio lo gical backg ro und and g eomet rical symmetr y ,we established adescr iptiv e model o f 3-dimensional space cur ve on the DN A sequence ,by w hich we g ot a r udimentar y mathematical m odel-Calculus mo del.T hr oug h the integr ation o f the model funct ion,w e have acquir ed the classificatio n r esults o f t he DN A sequences fr om 1t o 20,and fo und t hem identical to the classificatio n results g iv en by the pro blem .T hen we classified t he latter 20DN A sequences.T hen,on the v iew of the ar tificial neur al netw o rks,a second model -T he A r tificial neur alnetw or ks model wa s est ablished.We cho sen t hr ee kinds o f basic netw or ks,w hich w ell fit into the classificatio n at last .And by the same tim e ,w e pro posed the impr o vement of the BP net wo rk ,and finally pro cur ed co mparatively ideal classificat ion r esults by va rio us training pro g rammes.also ,w e fo und the result s identical to what we hav e go t by Calculus mo del.By the end,we endow ed A ,C ,G ,T w ith g eomet rical m eaning :A indicates r ig ht,while C asdow n ,G as up ,T as left .We g o t a mo bile cur ve fr om each sequence w it h the po ints o f the plain mo ving acco rding t o the contr olling of the DN A sequence.By fo llow ing the feat ur e of the mov ing direction,t he m odel funct ion w as established.By the w ay w e acquir ed the classificatio n r esults o f the latter 20DN A sequences and fo und them pr actically identical to the r esults o f the two abov e mo dels (One of results differ ent ly sho wed in this mo del is r egar ded as indiv isible ).T his model contains mo re info rma tio n,and is mo re stable.531期吕金翅等:DN A 序列分类的数学模型。
DNA 序列分类的数学模型
6期
吕金翅等 4 = >? 序列分类的数学模型
9 @
单 层感 知机是 一个具有 单层 计算 神 经 元的 神 经 网络 ! 并由 线形域 值单 元组 成 "原 始 的 它相当于单个神经元 "当它用于两类模式的分类时 ! 相 # $ % & $ ’ ( % ) *算法只有一个输出节点 ! 当于在高维样本空间中 ! 用一个超平面将两类样本分开 "+ 也已证明 ! 如果两类 " , ) $ * . / 0 ( ( 模式是线形可分的 1 指存在一 个 超 平 面 将 它 们 分 开 2 则 算 法 一 定 收 敛 "感 知 器 特 别 适 用 于 ! 简单的模式分类问题 ! 也可用于基于模式分类的学习控制和多模态控制中 " 修正方案 4 3 " 首先分析问题实质 ! 即采用一个单一神经元解决简单分类问题 4 将 5个输入矢量分为两 类! 其中一部分为 6 另一部分为 7 图6 ! "最后确定网络结构 1 8 9 2 4
g第二类数学模型神经网络模型由于神经网络具有运用已知认识新信息解决新问题学习新方法预见新趋势创造新思维的能力所以我们将神经网络处理问题的方法介入进来处理模式分类的问题quot
第! "卷第 "期 # $ $ "年 "月
数学的实践与认识 %&’ () %&’ * + ,* -. / &+ ’ * + )&-0 ’ () 1/ 2
34 5 6 ! " -4 6 " 8 9 : ;# $ $ "
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
DNA序列分类模型
DNA序列分类模型重庆市数学建模竞赛一等奖王勇, 莫志锋, 秦力顼(1999级自动化学院)[摘要]本文根据题中所给两个已知类别的DNA序列进行结构特征分析,从中提取信息和构造分类模型,对未知类别的DNA序列进行分类。
我们构造了三个分类模型,它们分别是:特征密码子概率分布判别模型、图论最小生成树模型和向量空间直观判别模型。
后两种分类结果几乎一致,判别率在90%左右,误判率控制在(0.05-0.1)范围。
问题一结果为:模型一的结果:A类有7个:22,23,27,29,34,35,37;B类有10个:21,24,26,28,30,31,32,33,38,40;不能判断的有3个:25,36,39;模型三的结果:A类有10种:22,23,25,27,29,34,35,36,37,39;B类有10种:21,24,26,28,30,31,32,33,38,40;问题二结果为:模型二的结果:A类有108个,B类有74个。
具体情况见文中答案。
模型三的结果:A类有120个,B类有62个。
具体情况见文中答案。
我们还对三种分类方法进行了类比,认为模型二、三方法新颖独特,结果稳定,它们是一种较好的分类方法。
并且对各种计算结果进行误差分析和检验等工作。
一、问题的重述本问题为一个DNA序列分类问题。
假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号1—10 为A类,11-20为B类。
要求我们从已经分类了的DNA序列片段中提取共同特征构造分类方法,并评价所用分类方法的好坏,从而构造或选择一种较好的分类方法。
测试对象是20个未标明类别的人工序列(标号21—40)和182个自然DNA序列。
二、模型的假设及符号说明1、名词解释:碱基:在生物学中,用A,T,C,G四个字符代表组成DNA序列的四种碱基;密码子:在遗传学中每三个碱基的组合被称为一个密码子,可以编码一个氨基酸,共有64个,还可以由密码子组成20个氨基酸。
DNA序列的分类 数学建模竞赛
补充知识(判别分析)
判别分析是用于判别个体所属群体的一种统计方法, 判别分析的特点是根据已掌握的、历史上每个类别的若 干样本的数据信息,总结出客观事物分类的规律性,建 立判别公式和判别准则。然后,当遇到新的样本点时, 只要根据总结出来的判别公式和判别准则,就能判别该 样本点所属的类别。判别分析是一种应用性很强的统计 数据分析方法。
。而u的选取,要使
同一类别产生的y尽量聚拢,不同类别产生的y尽量拉开。
这样,我们便可将样品x到某一类G的距离定义为
与
之间的欧氏距离:
其中c为G的几何中心.Fisher分类的判据为:
1若
,则判定义为A类;
2若
,则判定又为B类;
3若Leabharlann ,则判定又为不可判类。4.3 基于碱基位置特征分类的模型
4.3.1 定义一:相关运算
4.3.2 定义二:哑元 规定任意碱基与哑元作相关运算的结果都为0.
4.3.3 定义三:序列的延拓
对于任意一个长度为N的序列 (其中 个无限序列:
),定义它的延拓为如下一
即在该序列的左右两端均用哑元O填充.
4.3.4 定义四:序列的相关度
对于任意的两个序列 ,定义序列A和序列B的相关序列为:
定义序列B对序列A的相关度为:
第三步 把A、B两类的所有特征字符串进行排序,计算出每个特征字符串在两 类序列(1—20)中出现的总次数.如果小于5次,认为此字符串不能体现A、B两类的 特征差异,不予考虑.这样,统计出1—20中出现频率较大的特征三字符串(共21种) ,他们在每个序列中出现的频率为:3*该字符串在本序列中出现的次数/(S-M+1), 这里,M=3)
以下是以提取特征三字符串为例介绍统计算法:
基于数学建模方法对DNA序列分类的探究
基于数学建模方法对DNA序列分类的探究摘要运用模糊聚类数学建模方法对DNA序列进行分类。
对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵比较方法进行DNA序列分类。
关键词模糊聚类分析;DNA分类;数学建模中图分类号O242 文献标识码 A 文章编号1673-9671-(2012)052-0202-021 概述2000年6月,人类基因组计划中DNA全序列草图完成。
DNA序列由A、T、C、G4种碱基按一定规律排列而成。
当前生物信息学最重要的课题之一是研究由这4种碱基排列成的序列中蕴藏的规律。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究其规律性和结构。
现已知20个人工序列1~10属于A类,11~20属于B类,要求运用数学建模方法发掘已知类别DNA序列的特征,从而据此对未知类别的20个DNA序列进行分类。
本文对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵方法对DNA序列进行分类。
2 模糊聚类分析模型2.1 主要研究步骤通过观察发现,A类DNA序列中G碱基含量较多,T碱基含量较少,而B 类DNA序列则刚好相反。
所以可用这20条DNA序列中T和G碱基在自身序列中所占的频率作为基本研究对象,并对T、G碱基所占的比例的原始数据进行标准化,放大差异。
再建立相应的模糊相似矩阵,模糊等价矩阵和λ截矩阵,找出一个最优的λ值进行DNA序列分类并使分类准确度达到最高。
最后用上述方法以及λ值对另外20个未明类别的序列进行分类。
2.2 原始数据标准化先对T和G碱基频率作标准化处理。
平移—标准差变换(i=1,2…,20;j=2,4)其中xi是第i个DNA序列,x’ij是指碱基A,G,C,T在第i个DNA序列中出现的频率,x”ij是对x’ij进行标准化后的标准频率值,,,(j=2,4)。
dna序列种类预测模型方法
dna序列种类预测模型方法
预测DNA序列种类的方法有很多种,其中一种常用的方法是利用机器学习模型,例如支持向量机(SVM)、随机森林(Random Forest)和深度学
习模型等。
这些模型可以基于不同的特征和算法对DNA序列进行分类和预测。
以深度学习模型为例,可以使用长短期记忆网络(LSTM)对DNA序列进
行分类。
这种方法的基本步骤包括数据预处理、特征提取和模型训练等。
数据预处理包括清理数据、标准化和编码等步骤,目的是将原始的DNA序列数据转化为适合模型训练的格式。
特征提取则是从DNA序列中提取出有意义的特征,例如k-mer频率、序列长度等。
最后,使用训练集对模型进
行训练,并对测试集进行预测。
除了深度学习模型外,还可以使用其他机器学习模型对DNA序列进行分类,例如SVM、随机森林等。
这些模型也可以通过特征提取和训练来对DNA
序列进行分类和预测。
总的来说,预测DNA序列种类的方法有很多种,具体使用哪种方法取决于数据的特点和预测精度要求等因素。
DNA序列分类模型
DNA序列分类模型
模型假设
1.假设所讨论的DNA序列都是从DNA序列中任意截取的一部分;
2.DNA,RNA在传递信息及整个蛋白质合成过程中,遗传密码的传递严格遵循中心法则,不考虑基因变异情况,也不考虑因其他任何因素而导致DNA,RNA的损坏问题;
3.根据碱基互补配对原则,将与RNA上密码子对应的DNA伤相邻的3
个剪辑成为DNA上的密码子;
4.假设任一给定序列中碱基A、G、T、C的百分含量已知,na、ng、nt、
nc分别表示任一给定序列中碱基A、G、T、C的百分含量
问题分析
我们首先要提取出一个序列的特征,给出它的数学表示,最后选择选择基于这种数学表示的分类方法。
对于任何一个DNA序列,我们认为,反应该序列特征的方面为碱基的含量,反映了该序列的内容。
在建立基于碱基含量特征分类模型,确定最终DNA序列的分类。
模型建立
首先,我们考虑采用序列中的A,G,C,T的含量百分比作为该序列的特征。
将序列中的A,G,T,C的含量百分比分别记为na,ng,nt,nc,则得到一组表征该序列特征的四维向量(na,ng,nt,nc),由于na,ng,nt,nc之间具有线性相关(na+ng+nt+nc=1),所以我们采用简化的三维向量(na,nt,ng)来进行计算。
为了有效地进行分类识别,首先要根据被识别的对象产生一组基本特征,并对基本特征进行变换,得到最能反映分类本质的特征。
在列举了尽可能完备的特征参数集之后,借助数学的方法,使特征参数的数目减到最小。
我们通过研究4个字符A,T,C,G在DNA序列中的排列、组合特性,主要是研究字符和字符串的排列在序列中出现的频率,从中提取DNA序列的结构特征参数。
DNA序列分类
实验29 DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。
知识扩展DNA序列分类DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。
DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。
主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。
DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。
其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。
FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。
欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。
数学建模_DNA序列分类模型_(终稿)
Yi :第 i 个样品的特征向量
dij :向量 Yi 和向量 Y j 间的 Lance 和 Williams 距离
p :特征向量的分量个数,即向量的维数
k :特征向量的第 k 个分量 n :样品的个数
四、基本假设
1.假设所给的 DNA 序列片段中没有断句和标点符号。 2.假设具有特殊碱基的 DNA 序列中,特殊碱基可以剔除,其影响可以忽略。 3.较长的 182 个自然序列与已知类别的 20 个样本序列具有共同的特征。 4.假设给定的DNA序列均是从全序列中随机截取出来的,无法确定序列的起始位, 无法从序列中辨认出氨基酸,所以,在对DNA 序列分类时,从碱基层次上进行 分类, 而不是从氨基酸层次上分类。
五、定义与符号说明
ni :各个样品中碱基 i 出现的数量,i 为 A、T、C 或 G N i :第 i 个样品的总碱基数目
Fi :各个样品中碱基 i 的丰度,i 为 A、T、C G xi :各个样品的第 i 个特征变量
f ij :各个样品中碱基 i 和碱基 j 的比值,i,j 为 A、T、C 或 G
三、 问题分析
DNA 序列分类问题要求在对 DNA 序列的一些规律和结构有所了解的基础上, 从 20 个已知类别的人工制造的 DNA 序列中提取特征,构造分类方法,并用所选 择的分类方法对其余未知类别的 20 个人工制造的 DNA 序列以及 182 个自然 DNA 序列进行分类。 3.1 建模目标的分析 DNA 序列分类是一个复杂的统计分析问题,数据量大,影响因素多,无法直 接从 20 条已知类别的人工制造的 DNA 序列中提取出所有的有效特征,因此有必 要对这 20 条 DNA 序列进行预处理。 观察并分析数据预处理结果,归纳总结出 A 类和 B 类的有效特征,将其表示 成适当的数学对象,并选择适当的分类方法,建立普遍意义下数学模型,再用得 到的模型对其余未知类别的 20 个人工制造的 DNA 序列以及 182 个自然 DNA 序列 进行分类。 由题意,建立的数学模型应该保证分类结果具有以下特点: (1)类别间差异尽量大; (2)类别内差异尽量小; (3)样品能够尽可能的落入 A、B 范围,且只能落入其中的一个。 3.2 建模及求解方向 1.分析已知类别的 DNA 序列 1-20 的结构,提取出相应的特征。 主要的特征有:碱基的丰度、碱基或碱基序列的重复出现情况、碱基或碱基 序列之间的相邻情况、 不同碱基的丰度之比 (如碱基 A 与碱基 T 的丰度之比) 等。 2. 根据提取出的特征,选用合适的分类方法。 对数据进行预处理后,尝试以下方法建立模型: (1)根据聚类分析法,建立模型一。 由题意,DNA 序列分类属于对样品所做的分类,为 Q-型聚类。首先引入样品 变量,例如可选择碱基 T 的丰度、碱基 G 的丰度、碱基 T 与碱基 G 的丰度之比、 碱基 A 与碱基 T 的丰度之比等。 由已知数据,计算出每条已知类别的人工制造的 DNA 序列的各个样品变量值,存入向量中。 根据相似性度量原理,计算 20 个样品两两之间的 Lance 和 Williams 距离, 选择相距最远的两个样品(假设为样品 3 和样品 16)分别作为 A 类和 B 类,再 分别以样品 3 和样品 16 为标准点,通过分别计算样品 3 和样品 16 与其余 18 个
DNA模型(数学建模)
1
2 5 0.1
6 7 0.12 3 0.14
对20个人工DNA序列进行分类,准确率已经达 到95%。 对182个自然序列进行分类其准确率不高,必须 采用其它方法进行分类。 模型二:多维向量空间的判别分析模型
Y B (b1 , b2 ) C( C1, C 2 )
β
0 图四
α
A( a1, a 2 )
• 对于标号为i的序列,记它的特征向量为 • Xi = (na,ng,nt,nc)i。
XA
x11 x 21 = ⋮ x n1
x12
x13
xn 2
xn 3
x14 x 24 ⋮ xn 4
y11 y YB = 21 ⋮ yn1
见表1
经分析知,可以将64维的密码子简化为只有8维 的密码子。 A类序列的特征密码子:GGA,CGG,GGC,AGG B类序列的特征密码子: TTA,TTT,ATT,TAT
1、计算特征密码子出现频率 八个密码子:
GGA,CGG,GGC,AGG,TTA,TTT,ATT,TAT, A B
其数据结构为
0.7 0.6 15 0.5 0.4 18 13 11 12 19 14 20 0.3 16 38 40 28 26 24 21 0.2 33 31 32 4 25 0.1 29 22 36 30 17 37 35 34 39 10 9 0 0 0.02 0.04 0.06 27 8 1 0.08 23 2 5 0.1 6 7 0.12 3 0.14
64 1 2
2 ˆ 2 p j (k )∑ PB (k ) ∑ k =1 k =1
思考:
1、如何统计DNA序列片段中碱基a,g,t,c的 频率;编程实现。 2、试分别用统计方法(欧氏距离、马氏距离和 Fisher判别)对人工或自然序列进行分类。 3、DNA序列的特征提取其它方法。
DNA序列的分类方法
DNA序列的分类方法摘要:本文通过对20个已知类别的DNA序列进行统计分析,由浅入深进行研究,建立了五种DNA序列分类的模型。
模型一利用单个碱基在序列中的含量不同,提出单碱基分类标准;模型二根据碱基c,g的百分比之和与碱基a,t的百分比之和的比值α=++进行分类;模型三根据各序列中氨基酸分布不同引入分类参数β得到C G A T()/()分类标准;模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系,对未知类别的DNA相对于不同类别集合的距离进行分类;模型五利用模糊聚类分析法对DNA进行分类.关键词:DNA 分类模糊聚类分析一、问题的提出及分析1953年,诺贝尔奖获得者沃森(Watson)和克里克(Crick)创造了DNA链的双螺旋模型,并提出遗传信息由DNA传递给蛋白质的基本法则——中心法则.DNA(脱氧核糖核酸)链是由四种不同的核苷酸(a, t, g, c)排列而成,在DNA中,每三个核苷酸顺序组成一种氨基酸,共64种排列方式对应着20种氨基酸(其中有些不同排列对应同一种氨基酸).对于一个DNA来说,我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA 中的含量及排序方式.不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质.我们对DNA进行分类时,就应该考虑分布与排序所表示出来的特性,而将特性相近的DNA分为一类.在本文,我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性,对DNA进行分类.二、模型的基本假设与符号说明(一)基本假设(1)题中所列40个数据为40个不同DNA的40个片段,且包含着每个DNA 中我们所关注的主要信息;(2)182个DNA序列也为182个DNA中的片段,其中包含着以上40个数据中我们所关注的主要信息;(3)上面的所有DNA序列起始处都为一个完整氨基酸的起始处,每三个一组代表着不同氨基酸的排列.(二)符号说明a, t, g, c分别表示腺嘌呤,胸腺嘧啶,鸟嘌呤,胞嘧啶;,,,A T G C表示DNA片段中分别含a, t, g, c的百分比含量;a, t, g, c中任意3字符的组合为一个氨基酸(包括终止符);()/()C G A Tα=++;β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).三、模型的建立与求解模型一单碱基分类法通过对A,B类DNA序列的细致观察,容易看出,A类的碱基g的个数较多,而B类中碱基t的个数明显多于其他碱基,于是我们对A,B 类序列进行统计得到表1.表1A类中碱基百分比含量 B类中碱基百分比含量上述表格中的数据表明,除第4个数据外,A类中的t的百分比都小于0.19,g的百分比大于0.36, 而B类除倒数第4个数据(第17个序列)中的t的百分比含量大于0.45,g的百分比含量小于0.146.由此得到分类标准为:若0.2636G≥,则该序列属于A类;若T≤且0.1802G<,则该序列属于B类.T≥且0.18020.2883对21~40序列进行统计得到表2.表2 21~40序列中碱基百分比含量根据序列21~40的数值结果(见表2),对序列21~40进行分类可得如下结果:A类:22,23,25,27,29,30,34,35,36,37,39(共11个);B类:21,28,38,40(共4个);评析:此模型易于辨别,对于某些特征较显著的DNA序列的分类较有效,但对DNA中深入的研究缺少足够的理论支持,于是我们对模型进行进一步改进.模型二:参变量α分类法α的值[]1不根据DNA基因技术理论,不同来源的DNA序列()()T=+GC+Aα,得到A类,B类以及序列21~40关于α的数同,引进参数()()T=+AGC+据(见表3、表4).表3 A、B类关于α的数据表表4 序列21~40关于α的数据表通过以上数据的分析,我们发现A类中α的值在0.85~2.1429之间(除第4个数据外),B类中α的值在0.1702~0.6176之间,我们认为A类具有α>0.85这一特征,即B类中含有碱基a、t的数量较c、g多,以α为标准对序列21~40进行分类可得A类:22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39(共11个);B类:21 、24、 28、 38、40(共5个);评析:根据来源不同的DNA序列中,碱基a、t的数量与c、g的数量比例的不同,制定一个较为合理的标准,来区分序列21~40,且具有实际的生物意义[]1和价值.模型三:氨基酸含量分类法我们尝试从氨基酸的分布着手,找出属于A 类(或B 类)DNA 的数据特征,就认为未知DNA 序列只有A 类(或B 类)的性质.我们对A 类和B 类DNA 序列统计出20种氨基酸(剔除休止符)的分布,考虑各DNA 序列长度的不同,对20种氨基酸的百分比的分布绘图,如图所示(含数据):按生物学理论]1[对氨基酸进行分析,由分布图形可以断定,A 类中精氨酸(cga 、cgg 、cgc 、cgt 、aga 、agg )和甘氨酸(ggc 、ggt 、gga 、ggg ),B 类中赖氨酸(aaa 、aag )和苯丙氨酸(ttt 、ttc )为特征氨基酸,引入参数β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).并求得A 、B 类以及序列21~40关于β的数值(见表5、表6).表5 A 、B 类关于β的数值表表6 序列21~40关于β的数值表容易得出分类标准为:当0≤≤β 1.4,则序列属于 A 类;当0≤≤β 1.4,则序列属于B 类;当1.45.1≤≤β时,则序列无法区分.根据上述分类标准,对序列21~40进行分类得: A 类:22,23,25,27,29,34,35,36,37,39(共10个) B 类:21,24,26,28,30,31,32,33,38,40(共10个) 模型四:中心距离分类法对任何的DNA 序列中的各种氨基酸的百分比含量,容易统计求得,不妨设氨基酸的向量1220(,,,)i i i i S s s s = ,则i S 为一个20维的向量,对于己知的DNA 序列,A,B 类氨基酸的含量百分比和均值分别为:1220(,,,),1,2,,10A A A Ai i i i S s s s i == ; 1220(,,,),1,2,,10B B B B i i i i S s s s i == ; 1011,1,2,,2010A Ajij i S S j ===∑ ;1011,1,2,,2010B Bjij i S S j ===∑ .A 类DNA 序列氨基酸的空间重心为1220(,,,)A A A AS S S S = ;B 类DNA 序列氨基酸的空间重心为1220(,,,)B B B BS S S S = .我们定义i S 到A,B 中序列的氨基酸向量重心的中心距离分别为:20()1,1,2,,10i A Aij j j dS S i ==-=∑ .20()1,1,2,,10i B Bij j j dS S i ==-=∑ .A 类中各序列的氨基酸向量到B 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i A B ABij j j dS S i ==-=∑ ;B 类中各序列的氨基酸向量到A 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i BA BAij j j dS S i ==-=∑ . 我们认为两个DNA 序列的氨基酸向量的距离越近,则这两个序列的氨基酸拟合程度越高,这样确定如下分类准则:(1)DNA 序列的氨基酸向量与A 的重心A S 的距离0.7733d <时,则序列属于A 类;(2)DNA 序列的氨基酸向量与B 的重心B S 的距离0.6660d <时,则序列属于B 类;(3)否则说明该DNA 序列无法归类.应该说明的是,由数值结果(见下表)知,这种准则不会将己知的A 类归于B 类,己知的B 类中的序列归于己知的A 类. 数据结果如下:根据序列21-40的如下的数据结果:用上述的分类准则对序列21-40进行分类得: A 类:27,34,35 B 类:28评析:模型四引入DNA 的氨基酸向量到己知类别(A 类,B 类)重心的距离,提出分类准则,对未知DNA 序列进行分类,具有很好的新意,这样就把一个DNA 序列的排列问题转化为一个空间向量的距离问题.若某DNA 中序列的氨基酸含量的百分比向量到己知的类别的重心距离小,则说明这个DNA 中的序列各种氨基酸含量的百分比与己知类别的氨基酸含量的百分比拟合程度较高,则归入己类别,具有很高的生物学参考价值.模型五:模糊聚类分析分类法如题目已知:DNA 序列1~20,按一定的方法分成A,B 二类,我们用模糊聚类分析方法建立A,B 二类合并后的20个序列的相似矩阵2020()ij R r ⨯=,其中20AB AB AB AB ijikjkij SSSSr --=∑然后通过平方法求其他传递闭包R ',我们取λ水平为0.73,这样将20个序列分为二类A '类和B '类,与原来的A 、B 两类唯一区别是A 类中序列4通过处理后划分到B '类中去,这种分类方法与原来已分好的A ,B 类所形成的差异,其原因可能有以下几种(1) 原来的分类方法有误 (2) 序列4数据有误 (3) 数据信息特征的提炼不够当然我们用某些特殊方法使得分类结果与原来假定的分类吻合.如凡以gt 开头的序列划分为B 类,但这仅仅是一种数字游戏,看不出实际的意义,而且对后面的数据划分无从下手.为了避免A 中序列4的异类特性对A 类整体特征的影响,我们将它从 A 类中删除,只留下其余9个序列作为进一步分析的对象. 我们将待分类的20个序列的集合定义为C .C 中序列i C 与A 中(或B 中)每个元素)9,,1( =i a i 或)10,,1( =i b i 的相关系数的平均值定义为ia r (或ib r )对于C 中任一元素i c ,如ib ia r r >,且6.0>ia r ,则认为i c 隶属于A 类:如ia ib r r >,且6.0>ib r ,则认为i c 隶属于B 类。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DNA序列分类模型陈荣生张海军张旭东指导教师:数模组海军航空工程学院摘要本文讨论了在给定A类和B类各10个DNA序列的情况下,如何找出判断DNA 序列类型的方法,并具体分析了DNA序列的局部特征,最后将总体特征与局部特征综合考虑。
文中我们先根据给出的已知类型的20组DNA序列,考虑了四个碱基及其组合形式出现的频率,以此为研究对象进行深入研究,并建立了两个数学模型,即信息熵模型和Z曲线模型,最后还给出了模型的改进方向。
本文采取的用Z曲线来研究DNA序列的方法很有意义。
一、问题的重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,DNA全序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。
人们发现了DNA序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A 和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列,其中序列标号1—10 为A类,11-20为B 类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类; B类。
请详细描述你的方法,给出计算程序。
如果你部分地使用了现成的分类方法,也要将方法名称准确注明。
2),用你的分类方法对182个自然DNA序列进行分类,像1)一样地给出分类结果。
二、问题的分析为了找出分类方法,我们可以省略细节,突出特征,以某种碱基出现的频率或以两种甚至三种碱基的组合出现的频率,或者以几种碱基出现的频率之和为依据来考虑。
现分别就A、B两组DNA序列针对以下20个方面做一些简单分析:1)A出现的频率;2)C出现的频率;3)G出现的频率;4)T出现的频率;5)AC组合出现的个数;6)AG组合出现的个数;7)AT组合出现的个数;图18)CA组合出现的个数;9)CG组合出现的个数;10)CT组合出现的个数;11)TA组合出现的个数;12)TC组合出现的个数;13)TG组合出现的个数;14)GA组合出现的个数;15)GC组合出现的个数;16)GT组合出现的个数;17)A和G出现的频率之和;18)AT组合和TA组合出现的个数之和;19)CG组合和GA组合出现的个数之和;20)T出现的频率与G出现的频率之比。
作出图象(其中,横坐标表示第几条DNA序列),找出差异。
在这20个图象当中,一部分能够看出A、B两组的显著差异;另一部分则很难辨别。
由于篇幅所限,我们不能把20个我们选取其中几个有代表性的图象如图所示图2(红色圆圈表示A组的有关情况,蓝色方框表示B组的有关情况):其中,图1是针对情况1)所做出的,效果不显著;图2是针对17)A和G出现的频率之和,图3是针对20)T出现的频率与G出现的频率之比所做出的,效果这种方法相对较直观,但是粗糙,这里就不详细讨论了。
下面我们从更深层次的角度去考虑显然问题要求我们分析DNA序列的特征,研究DNA序列的结构。
从而找出DNA序列的规律,判断出其类别。
我们的任务就是构造一个较好的分类函数,根据它能够将任意给定的DNA序列分类。
初步分析A,B类DNA序列图3分类。
初步分析A,B类DNA序列便可得出A,T,C,G四个碱基在DNA序列中的出现频率是不一样的,在A类中G碱基的出现频率明显要多于B类,而在B类中T碱基的出现频率明显多于A类,但是A碱基的出现频率却相差不大。
因此我们便从四个碱基的出现频率分布入手考虑。
三、模型的假设1:假设问题所给的已知A,B类人工DNA序列含有足够的特征信息相互区别,我们可据此对待测序列进行分类。
2:我们认为对于任意的一个DNA 序列,有可能不能按照A ,B 进行分类,即可能存在我们未知的类别。
3:同一类型的DNA 序列可以有不同的长度。
(即碱基的数目是不同的)4:一个DNA 序列可能包括显A 性的DNA 片段,也可能包括显B 性的DNA 片段。
四 符号的假设S :表示四个碱基在DNA 序列中出现频率的信息熵;)4,3,2,1(=i p i :单个碱基在DNA 序列中出现的频率;A S :表示A 类DNA 序列所含的信息熵;B S :表示B 类DNA 序列所含的信息熵;C S :表示C 类DNA 序列所含的信息熵;μ ,σ:分别表示正态分布的均值与均方差;∧μ,∧σ:分别表示由极大似然估计法求得的均值估计量与方差估计量;i ω:表示A 类中某一DNA 序列的信息熵的分布概率;n f i / : 表示事件A S 出现的频率;05.0z :表示正态分布的一个上α=0.05分位点;)(205.0n χ:表示)(2n χ分布的一个上α=0.05分位点; n A 、n C 、n G 、n T :分别表示a 、c 、g 、t 碱基在长为n 的DNA 序列中出现的次数; L :DNA 序列的长度,即所含碱基个数;),,(n n n n z y x P :正四面体中与DNA 序列唯一对应的点,n n n z y x ,, 为n P 点的三个分量。
Z 曲线:由),,(n n n n z y x P 与DNA 序列一一对应而构造的经过三次曲线拟和形成的连续曲线,它是二阶可微的;z y x ,, :分别对应于n n n z y x ,,的拟合曲线;s :Z 曲线中的横坐标,它表示DNA 序列的长度。
五、模型的建立1:模型一题目要求我们将任意给定的DNA 序列分类,而从信息论的角度考虑,假如能够将一些DNA 序列分成A ,B 类,则说明同类的DNA 序列应具有相同或相似特征和规律,也就是应具有相同或相似的信息特征,即信息量总和相差无几。
如果将四个碱基在DNA 序列中的出现频率作为信息特征,显然单个碱基在DNA 序列中的概率(将出现频率近似于概率)分布是独立的。
下面定义信息熵:i i i p p S 241log ∑=-=其中)4,3,2,1(=i p i 代表四种碱基在序列中出现的频率。
我们先求出在A 类和B 类的DNA 序列中的各个碱基的出现频率,然后便将其频率代入信息量函数,便可求出每一DNA 序列的信息总量。
通过编程计算得A 类的信息总量为A S =[ 8756.1 8770.1 7576.1 8347.1 8529.18129.1 8458.1 9247.1 8787.1 8739.1](程序一)下面我们用分布拟合检验法证明信息总量近似服从正态分布。
0H :假设信息总量近似服从正态分布;1H :假设信息总量服不从正态分布;令A S 的概率密度为222)(21)(σμσπ--=x e x f ∞<<∞-x 由极大似然估计得8534.1^=μ,=^σ057.0若0H 为真,则按上式查标准正态分布函数表可得概率i ω∴ ∑=-1012/)(i i i i n n f ωω=07.5因为 07.5592.12)1210(205.0>=--χ所以接受假设,在显著性水平为05.0下接受总体服从正态分布(参考文献[1])。
我们用正态总体均值区间估计的办法求出任意DNA 序列属于A 类或B 类的信息总量区间。
置信度为0.95的置信区间为)(025.0z n σμ±则A S 的置信区间为8119.1(,)8858.1(置信度为95.0)。
同样可得到B 类的信息熵B S 的置信区间为9223.1(,)9678.1。
这样我们可以根据上面两个置信区间来分类。
我们将4021-序列看成C 组,分类结果如下:C S =9711.18169.18628.19349.19457.19560.19283.18822.19555.19433.1[9566.1 ]9408.19632.18970.19306.19539.19260.18983.19622.19530.1 A 类:232829 B 类:2122242526273132333536373940用此模型区分201-序列得:A 类1 24567910B 类1113141517181920显然模型一是比较粗糙的,其分类的准确率较低,这是因为模型一的信息量函数没有考虑两个或三个碱基组合的信息特征,然而由于单个碱基在DNA 序列中的出现的频率与两个或三个碱基的组合形式出现频率并不是独立的,如A 碱基的出现频率与A T,ATT 碱基组合的出现频率就不是独立的,故用信息量函数难以描述出DNA 序列的全部信息特征。
2:模型二我们不妨将DNA 序列化为几何形式表示。
我们先观察4种碱基的对称性(如图4)。
按照双环或单环的结构划分,碱基可分为两类,即嘌呤与嘧啶。
可表示为碱基⎩⎨⎧==T C Y GA R 或嘧啶或嘌呤 同样,按环中对应位置上是否存在氨基或酮基来划分,碱基又可分为碱基⎩⎨⎧==T G K CA M 或酮基或氨基进而,在双螺旋结构中按碱基对形成氢键的数目或强弱,碱基还可分为碱基⎩⎨⎧==T A W CG S 或弱氢键或强氢参照基本粒子理论中的做法,我们利用某种对称的几何图形来表示碱基的上述对称性。
我们首先想到了正多面体。
现在考虑一正六面体,它的六个面按z y x ,,三个方向可划分为前后,左右和上下三对。
不失一般性地,将左右面分别称为嘧啶与嘌呤面;前后面分别称为酮基与氨基面;上下面分别为弱氢键与强氢键面(如图5)。
在此表示形式中嘌呤与嘧啶;氨基与酮基;强氢键与弱氢键两两相对。
在六面体中各引一条对角线,使相对面的对角线两两互相垂直(如图6),在任意一相对面的 图5 用正六面体表示碱基的对称性两条对角线的四个端点上,分别标上符合该面的碱基符号。
例如,在嘌呤面对角线的两端分别标上A 和G ;在嘧啶面的两端分别标上C 和T (如图6)。
此时前述全部碱基对称关系全部自动成立。
如上下面分别出现AT 和GC ,前后面分别出现GT 和AC,而六条对角线恰好构成正四面体ACGT 的六条棱。
现将这种序列表示法简述如下:考察一个长为L 的单股DNA 序列,方向不限。