数学建模DNA序列分类模型终
2000年全国大学生数学建模竞赛A题 DNA序列分类
2000年全国大学生数学建模竞赛A题DNA序列分类2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,1 1-20为B类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—4 0)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类__________ ;B类_______________ 。
DNA计算模型原理讲解学习资料
DNA蛋白质计算的优点
将其转化为蛋白质序列的优点在于三个碱 基序列对应一种蛋白质,因此蛋白质序列 其信息密度更大,分子更小,从而可以使 用质谱分析法对蛋白质序列进行检测。
参考文献
[1]张成, 杨静, 王淑栋. DNA计算中荧光技术的应用及其发展[J].计算机学报, 2009, 32(12):2300-2310.
其与传统的进化算法相比,一方面DNA进化算法 的可以实现更大的群体规模;另一方面随着群体 规模的增大,DNA计算的并行性不会导致搜索时 间的增加。
DNA蛋白质算法
这种方法使用质粒进行运算,将DNA计算与其相应的蛋白 质表达相结合。研究表明,通过在质粒上设置开放读取框 架(ORF),我们正在将质粒计算模型与蛋白质表达相结合 进行运算。 开放读取框架如图所示:
[2]孙伟, 尤加宇, 江宏, 等. 纳米粒子标记 DNA 探针的制备与检测应用[J]. 中国卫生检验杂 志, 2005, 15( 8): 1008.
[3] Rohani Binti Abu Bakar,Junzo Watada, Witold Pedrycz. DNA approach to solve clustering problem based on a mutual order[J]. BioSystems. 2008, 91: 1-12.
文献[8]使用左图发夹模型解决了3-SAT 问题
帽子(cap)结构的发夹,文献[9]使 用右图这种结构作为辅助结构解决了 3-SAT问题
链状结构
另外一种线性存储模型是使用单链DNA或者RNA链来编码 信息,然后通过分管-合管操作来实现对问题的求解。特 别指出的是文献[10]中使用RNA作为计算底物,其删除操 作使用的是核糖核酸酶H,因为该酶的特性就是可以切割 RNA的端,进而消化DNA/RNA双螺旋链,而单链结构不 被破坏。
DNA序列的分类方法
DNA序列的分类方法摘要:本文通过对20个已知类别的DNA序列进行统计分析,由浅入深进行研究,建立了五种DNA序列分类的模型。
模型一利用单个碱基在序列中的含量不同,提出单碱基分类标准;模型二根据碱基c,g的百分比之和与碱基a,t的百分比之和的比值α=++进行分类;模型三根据各序列中氨基酸分布不同引入分类参数β得到C G A T()/()分类标准;模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系,对未知类别的DNA相对于不同类别集合的距离进行分类;模型五利用模糊聚类分析法对DNA进行分类.关键词:DNA 分类模糊聚类分析一、问题的提出及分析1953年,诺贝尔奖获得者沃森(Watson)和克里克(Crick)创造了DNA链的双螺旋模型,并提出遗传信息由DNA传递给蛋白质的基本法则——中心法则.DNA(脱氧核糖核酸)链是由四种不同的核苷酸(a, t, g, c)排列而成,在DNA中,每三个核苷酸顺序组成一种氨基酸,共64种排列方式对应着20种氨基酸(其中有些不同排列对应同一种氨基酸).对于一个DNA来说,我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA 中的含量及排序方式.不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质.我们对DNA进行分类时,就应该考虑分布与排序所表示出来的特性,而将特性相近的DNA分为一类.在本文,我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性,对DNA进行分类.二、模型的基本假设与符号说明(一)基本假设(1)题中所列40个数据为40个不同DNA的40个片段,且包含着每个DNA 中我们所关注的主要信息;(2)182个DNA序列也为182个DNA中的片段,其中包含着以上40个数据中我们所关注的主要信息;(3)上面的所有DNA序列起始处都为一个完整氨基酸的起始处,每三个一组代表着不同氨基酸的排列.(二)符号说明a, t, g, c分别表示腺嘌呤,胸腺嘧啶,鸟嘌呤,胞嘧啶;,,,A T G C表示DNA片段中分别含a, t, g, c的百分比含量;a, t, g, c中任意3字符的组合为一个氨基酸(包括终止符);()/()C G A Tα=++;β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).三、模型的建立与求解模型一单碱基分类法通过对A,B类DNA序列的细致观察,容易看出,A类的碱基g的个数较多,而B类中碱基t的个数明显多于其他碱基,于是我们对A,B 类序列进行统计得到表1.表1A类中碱基百分比含量 B类中碱基百分比含量上述表格中的数据表明,除第4个数据外,A类中的t的百分比都小于0.19,g的百分比大于0.36, 而B类除倒数第4个数据(第17个序列)中的t的百分比含量大于0.45,g的百分比含量小于0.146.由此得到分类标准为:若0.2636G≥,则该序列属于A类;若T≤且0.1802G<,则该序列属于B类.T≥且0.18020.2883对21~40序列进行统计得到表2.表2 21~40序列中碱基百分比含量根据序列21~40的数值结果(见表2),对序列21~40进行分类可得如下结果:A类:22,23,25,27,29,30,34,35,36,37,39(共11个);B类:21,28,38,40(共4个);评析:此模型易于辨别,对于某些特征较显著的DNA序列的分类较有效,但对DNA中深入的研究缺少足够的理论支持,于是我们对模型进行进一步改进.模型二:参变量α分类法α的值[]1不根据DNA基因技术理论,不同来源的DNA序列()()T=+GC+Aα,得到A类,B类以及序列21~40关于α的数同,引进参数()()T=+AGC+据(见表3、表4).表3 A、B类关于α的数据表表4 序列21~40关于α的数据表通过以上数据的分析,我们发现A类中α的值在0.85~2.1429之间(除第4个数据外),B类中α的值在0.1702~0.6176之间,我们认为A类具有α>0.85这一特征,即B类中含有碱基a、t的数量较c、g多,以α为标准对序列21~40进行分类可得A类:22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39(共11个);B类:21 、24、 28、 38、40(共5个);评析:根据来源不同的DNA序列中,碱基a、t的数量与c、g的数量比例的不同,制定一个较为合理的标准,来区分序列21~40,且具有实际的生物意义[]1和价值.模型三:氨基酸含量分类法我们尝试从氨基酸的分布着手,找出属于A 类(或B 类)DNA 的数据特征,就认为未知DNA 序列只有A 类(或B 类)的性质.我们对A 类和B 类DNA 序列统计出20种氨基酸(剔除休止符)的分布,考虑各DNA 序列长度的不同,对20种氨基酸的百分比的分布绘图,如图所示(含数据):按生物学理论]1[对氨基酸进行分析,由分布图形可以断定,A 类中精氨酸(cga 、cgg 、cgc 、cgt 、aga 、agg )和甘氨酸(ggc 、ggt 、gga 、ggg ),B 类中赖氨酸(aaa 、aag )和苯丙氨酸(ttt 、ttc )为特征氨基酸,引入参数β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).并求得A 、B 类以及序列21~40关于β的数值(见表5、表6).表5 A 、B 类关于β的数值表表6 序列21~40关于β的数值表容易得出分类标准为:当0≤≤β 1.4,则序列属于 A 类;当0≤≤β 1.4,则序列属于B 类;当1.45.1≤≤β时,则序列无法区分.根据上述分类标准,对序列21~40进行分类得: A 类:22,23,25,27,29,34,35,36,37,39(共10个) B 类:21,24,26,28,30,31,32,33,38,40(共10个) 模型四:中心距离分类法对任何的DNA 序列中的各种氨基酸的百分比含量,容易统计求得,不妨设氨基酸的向量1220(,,,)i i i i S s s s = ,则i S 为一个20维的向量,对于己知的DNA 序列,A,B 类氨基酸的含量百分比和均值分别为:1220(,,,),1,2,,10A A A Ai i i i S s s s i == ; 1220(,,,),1,2,,10B B B B i i i i S s s s i == ; 1011,1,2,,2010A Ajij i S S j ===∑ ;1011,1,2,,2010B Bjij i S S j ===∑ .A 类DNA 序列氨基酸的空间重心为1220(,,,)A A A AS S S S = ;B 类DNA 序列氨基酸的空间重心为1220(,,,)B B B BS S S S = .我们定义i S 到A,B 中序列的氨基酸向量重心的中心距离分别为:20()1,1,2,,10i A Aij j j dS S i ==-=∑ .20()1,1,2,,10i B Bij j j dS S i ==-=∑ .A 类中各序列的氨基酸向量到B 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i A B ABij j j dS S i ==-=∑ ;B 类中各序列的氨基酸向量到A 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i BA BAij j j dS S i ==-=∑ . 我们认为两个DNA 序列的氨基酸向量的距离越近,则这两个序列的氨基酸拟合程度越高,这样确定如下分类准则:(1)DNA 序列的氨基酸向量与A 的重心A S 的距离0.7733d <时,则序列属于A 类;(2)DNA 序列的氨基酸向量与B 的重心B S 的距离0.6660d <时,则序列属于B 类;(3)否则说明该DNA 序列无法归类.应该说明的是,由数值结果(见下表)知,这种准则不会将己知的A 类归于B 类,己知的B 类中的序列归于己知的A 类. 数据结果如下:根据序列21-40的如下的数据结果:用上述的分类准则对序列21-40进行分类得: A 类:27,34,35 B 类:28评析:模型四引入DNA 的氨基酸向量到己知类别(A 类,B 类)重心的距离,提出分类准则,对未知DNA 序列进行分类,具有很好的新意,这样就把一个DNA 序列的排列问题转化为一个空间向量的距离问题.若某DNA 中序列的氨基酸含量的百分比向量到己知的类别的重心距离小,则说明这个DNA 中的序列各种氨基酸含量的百分比与己知类别的氨基酸含量的百分比拟合程度较高,则归入己类别,具有很高的生物学参考价值.模型五:模糊聚类分析分类法如题目已知:DNA 序列1~20,按一定的方法分成A,B 二类,我们用模糊聚类分析方法建立A,B 二类合并后的20个序列的相似矩阵2020()ij R r ⨯=,其中20AB AB AB AB ijikjkij SSSSr --=∑然后通过平方法求其他传递闭包R ',我们取λ水平为0.73,这样将20个序列分为二类A '类和B '类,与原来的A 、B 两类唯一区别是A 类中序列4通过处理后划分到B '类中去,这种分类方法与原来已分好的A ,B 类所形成的差异,其原因可能有以下几种(1) 原来的分类方法有误 (2) 序列4数据有误 (3) 数据信息特征的提炼不够当然我们用某些特殊方法使得分类结果与原来假定的分类吻合.如凡以gt 开头的序列划分为B 类,但这仅仅是一种数字游戏,看不出实际的意义,而且对后面的数据划分无从下手.为了避免A 中序列4的异类特性对A 类整体特征的影响,我们将它从 A 类中删除,只留下其余9个序列作为进一步分析的对象. 我们将待分类的20个序列的集合定义为C .C 中序列i C 与A 中(或B 中)每个元素)9,,1( =i a i 或)10,,1( =i b i 的相关系数的平均值定义为ia r (或ib r )对于C 中任一元素i c ,如ib ia r r >,且6.0>ia r ,则认为i c 隶属于A 类:如ia ib r r >,且6.0>ib r ,则认为i c 隶属于B 类。
DNA序列分类
DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。
知识扩展DNA序列分类DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。
DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。
主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。
DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。
其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。
FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。
欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。
11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评
2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
数学建模十大经典算法( 数学建模必备资料)
建模十大经典算法1、蒙特卡罗算法。
该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时通过模拟可以来检验自己模型的正确性。
2、数据拟合、参数估计、插值等数据处理算法。
比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用Matlab作为工具。
3、线性规划、整数规划、多元规划、二次规划等规划类问题。
建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo、MATLAB软件实现。
4、图论算法。
这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。
5、动态规划、回溯搜索、分治算法、分支定界等计算机算法。
这些算法是算法设计中比较常用的方法,很多场合可以用到竞赛中。
6、最优化理论的三大非经典算法:模拟退火法、神经网络、遗传算法。
这些问题是用来解决一些较困难的最优化问题的算法,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。
7、网格算法和穷举法。
网格算法和穷举法都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。
8、一些连续离散化方法。
很多问题都是实际来的,数据可以是连续的,而计算机只认的是离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。
9、数值分析算法。
如果在比赛中采用高级语言进行编程的话,那一些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。
10、图象处理算法。
赛题中有一类问题与图形有关,即使与图形无关,论文中也应该要不乏图片的,这些图形如何展示以及如何处理就是需要解决的问题,通常使用Matlab进行处理。
历年全国数学建模试题及解法赛题解法93A非线性交调的频率设计拟合、规划93B足球队排名图论、层次分析、整数规划94A逢山开路图论、插值、动态规划94B锁具装箱问题图论、组合数学95A飞行管理问题非线性规划、线性规划95B天车与冶炼炉的作业调度动态规划、排队论、图论96A最优捕鱼策略微分方程、优化96B节水洗衣机非线性规划97A零件的参数设计非线性规划97B截断切割的最优排列随机模拟、图论98A一类投资组合问题多目标优化、非线性规划98B灾情巡视的最佳路线图论、组合优化99A自动化车床管理随机优化、计算机模拟99B钻井布局0-1规划、图论00A DNA序列分类模式识别、Fisher判别、人工神经网络00B钢管订购和运输组合优化、运输问题01A血管三维重建曲线拟合、曲面重建01B 公交车调度问题多目标规划02A车灯线光源的优化非线性规划02B彩票问题单目标决策03A SARS的传播微分方程、差分方程03B 露天矿生产的车辆安排整数规划、运输问题04A奥运会临时超市网点设计统计分析、数据处理、优化04B电力市场的输电阻塞管理数据拟合、优化05A长江水质的评价和预测预测评价、数据处理05B DVD在线租赁随机规划、整数规划06A 出版资源配置06B 艾滋病疗法的评价及疗效的预测 07A 中国人口增长预测 07B 乘公交,看奥运 多目标规划 数据处理 图论 08A 数码相机定位 08B 高等教育学费标准探讨09A 制动器试验台的控制方法分析 09B 眼科病床的合理安排 动态规划 10A 10B赛题发展的特点:1.对选手的计算机能力提出了更高的要求:赛题的解决依赖计算机,题目的数据较多,手工计算不能完成,如03B ,某些问题需要使用计算机软件,01A 。
DNA序列研究数学建模问题
题目 DNA 序列摘要本文主要研究DNA 序列的结构问题,通过建立相应的数学模型,对DNA 序列中所隐藏的规律进行研究和分析,给出了解决问题的最优方案,并且对模型进行了评价和推广。
对于问题一,为了挖掘DNA 序列的特征将其分为A 类和B 类,以20种基本氨基酸为目标,利用Matlab 软件编程得出每一行每一种氨基酸出现的概率;再运用主成分分析法进行降维,利用SPSS 软件进行数据处理得到矩阵;然后再将模糊聚类问题转化为如下优化问题:2111min (,)(())..1(1,2,6)01n cq ik ik k i cik i ik J U V u d s t u k u ======≤≤∑∑∑用模糊聚类分析方法来获取样本与聚类中心的加权距离最小的最佳分类,使其分题一相同的方法进行分类,分类结果见问题二的求解。
总的来说,本模型在未知数据特征的情况下很好的将数据进行分类,成功地解决了此次数学建模的DNA 序列问题,是聚类分析问题的一个有效而且具有较强实用性的方法。
关键词:主成分分析 模糊聚类分析 Matlab 软件 Spss 软件一、问题重述1.1背景分析随着DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。
如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。
本文主要致力于对DNA序列结构以及序列中所隐藏规律的研究。
1.2问题重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
2000年全国大学生数学建模大赛A题各类优秀论文简介
DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的 Neural Network Toolbox(神经网络工具箱 )中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA序列的分类结果 ...KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述KB)。
基于数学建模方法对DNA序列分类的探究
参 考 文献
0 9 45 .0
1 5 1 6 1 7 1 8 1 9
2 0
02 09 .9 03 36 _6 n3 45 5 o2 09 .9 02 82 .1
O 2 o0 .0
00 00 .0 O07 .r O5 01 8 .8 2 00 O5 .7 00 35 .2
09 8 .9 2 1
相关 系数 刻画 随机 变 量之 间 的线 性相 关 性 :相关 系数 绝 对值 越 大 ,随机 变量 之 间的 线性 关 系越 密 切 ;相 关 系数 为0 ,称 随机 变 量 线 性 无 关 。所 以利用 相 关 系 数 法对 碱 基 频 率 模糊 矩 阵 的元 素 进
果为: A {2 3 5 7 9 3 4 5 6 7 9 类 2 ,2 ,2 ,2 ,2 ,3 ,3 ,3 ,3 ,3 ,3 }
4
5
0.2 4 34
0.3 2 42
0.01 3 3
0.2 9 99
0.081 1
0- 42 23
03 67 .8
00 73 .7
4
∑( i ・ 一 — ( i ) )
=
c 标
”
kl =
(, f J=1 … … -2 ) ,3 2 .0 ,
得 到一 个关 于 相 似 程度 的模 糊 相似 矩 阵 。 与 如 果 与‘ 的相 似 程 度 为 ,,那 么模 糊 矩 阵 ( 。 ,显 然 R = 是模 糊 相似 矩 阵 ,为
0.8 7 09 0.4 8 03 09 32 .5 08 30 .9 00 41 .9 02 1 .l 7 01 46 .6
01 .41l
0.2 161
DNA序列分类
DNA序列分类摘要本文以题目的有关数据为资料,对如何对DNA序列分类进行研究,针对各个问题,我们分别建立了欧氏距离分类模型、马氏距离分类模型、Fisher分类模型多个数学模型,经过严密的理论论证,精确的计算,很好的解决了DNA序列归类的问题。
针对问题一,我们首先根据的相关知识/理论,建立了欧式距离模型模型。
为了解决DNA序列分类,我们运用统计、最优化、特征值提取等数学方法,从已知样本序列中提炼出能较好代表两类特征的关键字符串,我们可以得到量化的分类标准,对所给的DNA序列进行分类。
在问题二中,我们同样采用了问题一中的三种模型,进行检验。
在求解的过程中,我们在数据的处理上不可避免的存在不少误差,我们通过探讨研究,给出了误差分析,分析了其中的误差产生的来源,尽量避免由于误差所造成求解的错误,进而得出了一个较好的方案。
我们还对模型进行改进,通过多个模型的比较,使得模型更加合理,更加切合实际。
从而较好的解决了对各种DNA序列的分类。
关键词:序列分类;特征分析;分类模型;最优分类一、问题的重述㈠背景知识1、DNA序列的概况从2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
2、DNA序列排列原理DNA序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,在DNA全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性。
㈡问题作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。
dna分子的数学模型
dna分子的数学模型
DNA是生物体内最基本的遗传物质,是遗传信息的携带者。
对于
人类来说,理解DNA的结构和功能是关键的科学研究之一。
在数学上,DNA也被建立了很多的模型,以揭示其内在的结构和特点。
首先,DNA分子可以被建立为线性链,其中每一个单元是一种特
定的核苷酸。
在这个模型中,我们可以用数学公式描述出这个线性链
的形状和运动状态。
此外,越来越多的研究人员采用较新的方法,如
纳米科技和单分子成像技术,来获得DNA的更多信息。
另外一个重要的DNA数学模型是DNA的二级结构。
这个结构包括
了两个核苷酸链相互缠绕形成的双螺旋的形态。
在这个模型中,我们
可以用数学公式描述出双螺旋的形状和结构,以及核苷酸之间的距离
和角度等特征。
除此之外,还有很多其他的DNA数学模型,如DNA序列分析模型、三维DNA模型等等。
这些模型都能够对DNA的科学研究和应用起到促
进作用。
例如,在基因编辑和疾病预测等领域,DNA数学模型的应用将有助于科学家在基因工程和医学治疗上取得更好的进展。
总之,DNA数学模型在现代生物技术研究中扮演着不可或缺的角色。
它们揭示了DNA分子的结构和特点,为我们深入了解生命的奥秘
提供了帮助,同时也为未来的基因工程和医学治疗提供了重要的科学
依据。
DNA序列分类模型
DNA序列分类模型
刘丽
【期刊名称】《重庆通信学院学报》
【年(卷),期】2005(32)3
【摘要】本文对2000年全国大学生数学建模竞赛A题DNA序列分类给出了高达92.73%的分类方法,方法简明有效,可作为这一问题的经典解法.
【总页数】4页(P393-396)
【作者】刘丽
【作者单位】合肥工业大学理学院
【正文语种】中文
【中图分类】O29
【相关文献】
1.DNA序列判别分类模型 [J], 王显金;阳军
2.DNA序列判别分类模型 [J], 王显金;阳军
3.基于隐马尔科夫模型的DNA序列分类方法 [J], 郭彦明;陈黎飞;郭躬德
4.基于模糊聚类算法的DNA序列分类模型 [J], 韦相
5.应用LDA模型的DNA序列分类方法 [J], 冯超
因版权原因,仅展示原文概要,查看原文内容请购买。
全国大学生数学建模竞赛赛题基本解法
• 总结 • 数学建模竞赛常用方法和手段主要是下面几类:
• 1.分析类 如最优捕鱼策略 SARS的传播 微分方程 • 2.运筹学 图论 规划等 • 3.数理统计 统计分析、数据处理等 • 4.计算机 模式识别、Fisher判别、人工神经网
络、仿真模拟等 • 5.常用软件 • Matlab Mathematica Lingo SAS系统等
全国大学生数学建模竞赛贵州赛区组委会93a非线性交调的频率设计拟合规划93b足球队排名图论层次分析整数规划94a逢山开路图论插值动态规划94b锁具装箱问题图论组合数学95a飞行管理问题非线性规划线性规划95b天车与冶炼炉的作业调度动态规划排队论图论96a最优捕鱼策略微分方程优化96b节水洗衣机非线性规划97a零件的参数设计非线性规划97b截断切割的最优排列随机模拟图论98a一类投资组合问题多目标优化非线性规划98b灾情巡视的最佳路线图论组合优化99a自动化车床管理随机优化计算机模拟99b钻井布局01规划图论00adna序列分类模式识别fisher判别人工神经网络00b钢管订购和运输组合优化运输问题01a血管三维重建曲线拟合曲面重建01b工交车调度问题多目标规划02a车灯线光源的优化非线性规划02b彩票问题单目标决策仿真模拟03asars的传播微分方程差分方程时间序列03b露天矿生产的车辆安排整数规划运输问题04a奥运会临时超市网点设计统计分析数据处理优化04b电力市场的输电阻塞管理数据拟合优化05a长江水质的评价和预测统计分析数据处理预测1
• 其包括许多模块,如统计分析模块、绘图模块、 质量控制模块、SAS/ETS(经济计量学和时间 序列分析模块)、SAS/OR(运筹学模块)、 SAS/FSP(快速数据处理的交互式菜单系统模 块)、SAS/AF(交互式全屏幕软件应用系统模 块)等等。
DNA 序列的分类
欧 氏 距 离描述随 机点之 间的距离 并 不好4因 此 当待 分 类样 本是随 机样本3具有 一定的 统计
性 质 时 3这 个 模 型 并 不 能 很 好 的 描 述 两 个 随 机 点 之 间 的 接 近 程 度 4
!"#"# 马氏距离%RSTS)SUVW*X,分类模型 为了克 服采用欧氏 距离 时的 缺陷3我们 采 用 马氏 距离 来代 替欧氏距离4改进 后 的 算 法
对 于任意一个长度为 : 的序列 ;<=其 中 ,><
? :@%定 义 它 的 延 拓 为 如 下 一 个 无 限 序 列 1
;A B1当 ,>B?: 时%;AB C;BD当EF?B?,及 :>B?F 时%;A BC9! 即在该序列的左右两端均用哑元 9填充!
-./.- 定义四1序列的相关度
8类 5万A6方3AJ数3A据O3AP3F63FP3FK3J9
用上述算法对未知的自然序列 Q6IQ6PA进行分类3得到的结果见附录 "%略,
B期
韩轶平等<‘[W 序列的分类
VB
!"#"$ %&’()*准则分类模型 在多维空间里分类的方法不仅仅是距离分类法一种+常用的 ,-./01分类法就是另一种
基于几何特性的分类法2在距离判别模型中+三维空间的样品 3 被映射为一维的距离 4来 作 判断2,-./01分类法的思想也是把三维空间的样本映射为一维的特征值 5+并依据 5来进 行判别2具体的作法是先引入一个与样 本 同维 的 待 定向 量 6+再 将 5取为 3 坐 标的线 性组 合 576892而 6的 选 取2要 使 同 一 类 别 产 生 的 5尽 量 聚 拢+不 同 类 别 产 生 的 5尽 量 拉 开2 这样+我们便可将样品 3 到某一类 :的距离定义为 57689与 5;768;之间的欧氏距离<
DNA序列分类模型
DNA序列分类模型重庆市数学建模竞赛一等奖王勇, 莫志锋, 秦力顼(1999级自动化学院)[摘要]本文根据题中所给两个已知类别的DNA序列进行结构特征分析,从中提取信息和构造分类模型,对未知类别的DNA序列进行分类。
我们构造了三个分类模型,它们分别是:特征密码子概率分布判别模型、图论最小生成树模型和向量空间直观判别模型。
后两种分类结果几乎一致,判别率在90%左右,误判率控制在(0.05-0.1)范围。
问题一结果为:模型一的结果:A类有7个:22,23,27,29,34,35,37;B类有10个:21,24,26,28,30,31,32,33,38,40;不能判断的有3个:25,36,39;模型三的结果:A类有10种:22,23,25,27,29,34,35,36,37,39;B类有10种:21,24,26,28,30,31,32,33,38,40;问题二结果为:模型二的结果:A类有108个,B类有74个。
具体情况见文中答案。
模型三的结果:A类有120个,B类有62个。
具体情况见文中答案。
我们还对三种分类方法进行了类比,认为模型二、三方法新颖独特,结果稳定,它们是一种较好的分类方法。
并且对各种计算结果进行误差分析和检验等工作。
一、问题的重述本问题为一个DNA序列分类问题。
假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号1—10 为A类,11-20为B类。
要求我们从已经分类了的DNA序列片段中提取共同特征构造分类方法,并评价所用分类方法的好坏,从而构造或选择一种较好的分类方法。
测试对象是20个未标明类别的人工序列(标号21—40)和182个自然DNA序列。
二、模型的假设及符号说明1、名词解释:碱基:在生物学中,用A,T,C,G四个字符代表组成DNA序列的四种碱基;密码子:在遗传学中每三个碱基的组合被称为一个密码子,可以编码一个氨基酸,共有64个,还可以由密码子组成20个氨基酸。
数学建模实例DNA序列分类
2000全国大学生数学建模竞赛题目A题 DNA序列分类2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类; B类。
dna序列种类预测模型方法
dna序列种类预测模型方法
预测DNA序列种类的方法有很多种,其中一种常用的方法是利用机器学习模型,例如支持向量机(SVM)、随机森林(Random Forest)和深度学
习模型等。
这些模型可以基于不同的特征和算法对DNA序列进行分类和预测。
以深度学习模型为例,可以使用长短期记忆网络(LSTM)对DNA序列进
行分类。
这种方法的基本步骤包括数据预处理、特征提取和模型训练等。
数据预处理包括清理数据、标准化和编码等步骤,目的是将原始的DNA序列数据转化为适合模型训练的格式。
特征提取则是从DNA序列中提取出有意义的特征,例如k-mer频率、序列长度等。
最后,使用训练集对模型进
行训练,并对测试集进行预测。
除了深度学习模型外,还可以使用其他机器学习模型对DNA序列进行分类,例如SVM、随机森林等。
这些模型也可以通过特征提取和训练来对DNA
序列进行分类和预测。
总的来说,预测DNA序列种类的方法有很多种,具体使用哪种方法取决于数据的特点和预测精度要求等因素。
DNA序列分类
实验29 DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。
知识扩展DNA序列分类DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。
DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。
主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。
DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。
其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。
FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。
欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DNA序列分类模型DNA序列分类模型毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:日期:指导教师签名:日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:日期:学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名:日期:年月日导师签名:日期:年月日注意事项1.设计(论文)的内容包括:1)封面(按教务处制定的标准封面格式制作)2)原创性声明3)中文摘要(300字左右)、关键词4)外文摘要、关键词5)目次页(附件不统一编入)6)论文主体部分:引言(或绪论)、正文、结论7)参考文献8)致谢9)附录(对论文支持必要时)2.论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。
3.附件包括:任务书、开题报告、外文译文、译文原文(复印件)。
4.文字、图表要求:1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。
图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画3)毕业论文须用A4单面打印,论文50页以上的双面打印4)图表应绘制于无格子的页面上5)软件工程类课题应有程序清单,并提供电子文档5.装订顺序1)设计(论文)2)附件:按照任务书、开题报告、外文译文、译文原文(复印件)次序装订3)其它摘要本文分析了已知类别的人工DNA序列的特征,建立了聚类分析延拓模型和马尔可夫模型,分别对未知类别的人工DNA序列和自然序列进行分类,根据分类效果选出了较优模型。
首先对数据进行预处理,得到人工DNA序列的单个碱基丰度和不同碱基丰度之比等特征量,进而分析A、B两类的差异,得到合适的特征判定条件对未知类别的DNA序列进行分类。
计算人工DNA序列的特征量,给出各序列的统计数据。
其次用聚类分析延拓模型进行分类。
用A、B两类具有明显差异的特征作为样品特征变量,得到欧式空间中表征编号1-20人工DNA序列的特征向量,计算两两之间的Lance和Williams距离进行相似性度量,逐步选择相似性较大的归为一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到类内差异小、类间差异大的A、B两类,建立了聚类分析延拓模型。
再对选取的特征变量进行改进,提高模型的分类效果。
最后,借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。
再次用马尔可夫模型进行分类。
将DNA序列看成是马尔可夫链,求出编号1-10和11-20人工DNA序列在已知当前碱基种类的条件下,下一个碱基出现任一种的概率,结果存入概率转移矩阵1和2,再利用矩阵1和2分别求出编号1-20中任一条DNA序列出现的概率,选择较大的一个作为该DNA序列的分类,建立马尔可夫模型。
再进行与聚类分析延拓模型类似的改进和检验工作,然后对编号21-40人工DNA序列和182条自然序列进行分类,得到最终结果。
最后,用层次分析法综合评价模型一与模型二,选择聚类分析延拓模型作为最终模型,其分类结果作为最终结果,具体如下:编号21-40人工DNA序列中属于A类的样品编号为:22,23,25,27,29,30,34,35,36,37,39;属于B类的样品编号为:21,24,26,28,31,32,33,38,40。
182条自然序列中,属于B类的样品编号为:7,10,12,22,23,24,26,28,30,34,43,48,50,54,57,65,75,76,80,84,85,86,92,98,103,107,110,114,116,119,121,122,123,127,128,129,130,131,137,138,140,142,143,144,146,151,156,159,161,162,163,166,168,170,173,174,175,179,180,181,182;其余为A类。
关键词DNA序列分类聚类分析延拓法Lance和Williams距离马尔可夫法一、问题重述1.1题目背景(1)2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
(2)这本“天书”是由4个字符A,T,C,G按一定顺序排成的无间隔的长约30亿的序列,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少。
因此,破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
(3)为解读这部“天书”,首先要研究DNA全序列具有什么结构,以及由这4个字符排成的看似随机的序列中隐藏着什么规律,这也是生物信息学最重要的课题。
1.2题目信息(1)DNA序列分为编码区与非编码区。
编码区是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
(2)在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
(3)利用统计的方法还发现序列的某些片段之间具有相关性。
这些发现说明DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列有十分重要的意义。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
1.3题目要求(1)有20个已知类别的人工制造的DNA序列(见附件1),其中序列标号1—10 为A类,11-20为B类。
从中提取特征,构造分类方法,并用这些已知类别的序列,衡量所选分类方法是否足够好。
(2)用(1)中的分类方法对另外20个未标明类别的人工序列(见附件1,标号21—40)进行分类,根据分类效果对方法不断完善,将得到的最终结果用序号(按从小到大的顺序)标明它们的类别(A类或B类,无法分类的不写入)。
要求详细描述所选的分类方法,给出计算程序。
若论文中部分地使用了现成的分类方法,应将方法名称准确注明。
(3)已知182个自然DNA序列(见附件2),它们都较长。
同样用以上所选的分类方法对它们进行分类,并根据分类效果对方法不断完善,像(2)中一样给出最终的分类结果。
二、名词解释1.编码区与非编码区:编码区是指DNA上编码蛋白质的序列片段,而非编码区不用于编码蛋白质。
2.聚类分析:由已知数据,计算各个观察个体或变量之间亲疏关系的统计量。
再根据某种准则(最短距离法、最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类的分类方法。
其中,对样品所作的分类为Q-型聚类,对变量所作的分类为R-型聚类。
3.相似性度量:对数值型数据而言,两个个体的相似度是指它们在欧氏空间中互相邻近的程度;而对分类型数据而言,两个个体的相似度与它们取值相同的属性的个数有关。
4.样品:每个观察个体即每条DNA序列为一个样品。
5.样品变量:每个样品所具有的不同特征用不同的变量来表示,变量数等于特征数。
6.碱基丰度:每条DNA序列中碱基A、G、C或T出现的频率。
三、问题分析DNA序列分类问题要求在对DNA序列的一些规律和结构有所了解的基础上,从20个已知类别的人工制造的DNA序列中提取特征,构造分类方法,并用所选择的分类方法对其余未知类别的20个人工制造的DNA序列以及182个自然DNA 序列进行分类。
3.1建模目标的分析DNA序列分类是一个复杂的统计分析问题,数据量大,影响因素多,无法直接从20条已知类别的人工制造的DNA序列中提取出所有的有效特征,因此有必要对这20条DNA序列进行预处理。
观察并分析数据预处理结果,归纳总结出A类和B类的有效特征,将其表示成适当的数学对象,并选择适当的分类方法,建立普遍意义下数学模型,再用得到的模型对其余未知类别的20个人工制造的DNA序列以及182个自然DNA序列进行分类。
由题意,建立的数学模型应该保证分类结果具有以下特点:(1)类别间差异尽量大;(2)类别内差异尽量小;(3)样品能够尽可能的落入A、B范围,且只能落入其中的一个。
3.2建模及求解方向1.分析已知类别的DNA序列1-20的结构,提取出相应的特征。
主要的特征有:碱基的丰度、碱基或碱基序列的重复出现情况、碱基或碱基序列之间的相邻情况、不同碱基的丰度之比(如碱基A与碱基T的丰度之比)等。
2. 根据提取出的特征,选用合适的分类方法。
对数据进行预处理后,尝试以下方法建立模型:(1)根据聚类分析法,建立模型一。
由题意,DNA序列分类属于对样品所做的分类,为Q-型聚类。
首先引入样品变量,例如可选择碱基T的丰度、碱基G的丰度、碱基T与碱基G的丰度之比、碱基A与碱基T的丰度之比等。
由已知数据,计算出每条已知类别的人工制造的DNA序列的各个样品变量值,存入向量中。
根据相似性度量原理,计算20个样品两两之间的Lance和Williams距离,选择相距最远的两个样品(假设为样品3和样品16)分别作为A类和B类,再分别以样品3和样品16为标准点,通过分别计算样品3和样品16与其余18个样品之间的Lance和Williams距离,找出与其相距最近的一个样品(假设为样品1和样品18)归为一类。
此时,新的标准点变为样品1与样品3的中点、样品16与样品18的中点。