DNA序列的分类模型
DNA序列的分类方法
DNA序列的分类方法摘要:本文通过对20个已知类别的DNA序列进行统计分析,由浅入深进行研究,建立了五种DNA序列分类的模型。
模型一利用单个碱基在序列中的含量不同,提出单碱基分类标准;模型二根据碱基c,g的百分比之和与碱基a,t的百分比之和的比值α=++进行分类;模型三根据各序列中氨基酸分布不同引入分类参数β得到C G A T()/()分类标准;模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系,对未知类别的DNA相对于不同类别集合的距离进行分类;模型五利用模糊聚类分析法对DNA进行分类.关键词:DNA 分类模糊聚类分析一、问题的提出及分析1953年,诺贝尔奖获得者沃森(Watson)和克里克(Crick)创造了DNA链的双螺旋模型,并提出遗传信息由DNA传递给蛋白质的基本法则——中心法则.DNA(脱氧核糖核酸)链是由四种不同的核苷酸(a, t, g, c)排列而成,在DNA中,每三个核苷酸顺序组成一种氨基酸,共64种排列方式对应着20种氨基酸(其中有些不同排列对应同一种氨基酸).对于一个DNA来说,我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA 中的含量及排序方式.不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质.我们对DNA进行分类时,就应该考虑分布与排序所表示出来的特性,而将特性相近的DNA分为一类.在本文,我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性,对DNA进行分类.二、模型的基本假设与符号说明(一)基本假设(1)题中所列40个数据为40个不同DNA的40个片段,且包含着每个DNA 中我们所关注的主要信息;(2)182个DNA序列也为182个DNA中的片段,其中包含着以上40个数据中我们所关注的主要信息;(3)上面的所有DNA序列起始处都为一个完整氨基酸的起始处,每三个一组代表着不同氨基酸的排列.(二)符号说明a, t, g, c分别表示腺嘌呤,胸腺嘧啶,鸟嘌呤,胞嘧啶;,,,A T G C表示DNA片段中分别含a, t, g, c的百分比含量;a, t, g, c中任意3字符的组合为一个氨基酸(包括终止符);()/()C G A Tα=++;β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).三、模型的建立与求解模型一单碱基分类法通过对A,B类DNA序列的细致观察,容易看出,A类的碱基g的个数较多,而B类中碱基t的个数明显多于其他碱基,于是我们对A,B 类序列进行统计得到表1.表1A类中碱基百分比含量 B类中碱基百分比含量上述表格中的数据表明,除第4个数据外,A类中的t的百分比都小于0.19,g的百分比大于0.36, 而B类除倒数第4个数据(第17个序列)中的t的百分比含量大于0.45,g的百分比含量小于0.146.由此得到分类标准为:若0.2636G≥,则该序列属于A类;若T≤且0.1802G<,则该序列属于B类.T≥且0.18020.2883对21~40序列进行统计得到表2.表2 21~40序列中碱基百分比含量根据序列21~40的数值结果(见表2),对序列21~40进行分类可得如下结果:A类:22,23,25,27,29,30,34,35,36,37,39(共11个);B类:21,28,38,40(共4个);评析:此模型易于辨别,对于某些特征较显著的DNA序列的分类较有效,但对DNA中深入的研究缺少足够的理论支持,于是我们对模型进行进一步改进.模型二:参变量α分类法α的值[]1不根据DNA基因技术理论,不同来源的DNA序列()()T=+GC+Aα,得到A类,B类以及序列21~40关于α的数同,引进参数()()T=+AGC+据(见表3、表4).表3 A、B类关于α的数据表表4 序列21~40关于α的数据表通过以上数据的分析,我们发现A类中α的值在0.85~2.1429之间(除第4个数据外),B类中α的值在0.1702~0.6176之间,我们认为A类具有α>0.85这一特征,即B类中含有碱基a、t的数量较c、g多,以α为标准对序列21~40进行分类可得A类:22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39(共11个);B类:21 、24、 28、 38、40(共5个);评析:根据来源不同的DNA序列中,碱基a、t的数量与c、g的数量比例的不同,制定一个较为合理的标准,来区分序列21~40,且具有实际的生物意义[]1和价值.模型三:氨基酸含量分类法我们尝试从氨基酸的分布着手,找出属于A 类(或B 类)DNA 的数据特征,就认为未知DNA 序列只有A 类(或B 类)的性质.我们对A 类和B 类DNA 序列统计出20种氨基酸(剔除休止符)的分布,考虑各DNA 序列长度的不同,对20种氨基酸的百分比的分布绘图,如图所示(含数据):按生物学理论]1[对氨基酸进行分析,由分布图形可以断定,A 类中精氨酸(cga 、cgg 、cgc 、cgt 、aga 、agg )和甘氨酸(ggc 、ggt 、gga 、ggg ),B 类中赖氨酸(aaa 、aag )和苯丙氨酸(ttt 、ttc )为特征氨基酸,引入参数β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).并求得A 、B 类以及序列21~40关于β的数值(见表5、表6).表5 A 、B 类关于β的数值表表6 序列21~40关于β的数值表容易得出分类标准为:当0≤≤β 1.4,则序列属于 A 类;当0≤≤β 1.4,则序列属于B 类;当1.45.1≤≤β时,则序列无法区分.根据上述分类标准,对序列21~40进行分类得: A 类:22,23,25,27,29,34,35,36,37,39(共10个) B 类:21,24,26,28,30,31,32,33,38,40(共10个) 模型四:中心距离分类法对任何的DNA 序列中的各种氨基酸的百分比含量,容易统计求得,不妨设氨基酸的向量1220(,,,)i i i i S s s s = ,则i S 为一个20维的向量,对于己知的DNA 序列,A,B 类氨基酸的含量百分比和均值分别为:1220(,,,),1,2,,10A A A Ai i i i S s s s i == ; 1220(,,,),1,2,,10B B B B i i i i S s s s i == ; 1011,1,2,,2010A Ajij i S S j ===∑ ;1011,1,2,,2010B Bjij i S S j ===∑ .A 类DNA 序列氨基酸的空间重心为1220(,,,)A A A AS S S S = ;B 类DNA 序列氨基酸的空间重心为1220(,,,)B B B BS S S S = .我们定义i S 到A,B 中序列的氨基酸向量重心的中心距离分别为:20()1,1,2,,10i A Aij j j dS S i ==-=∑ .20()1,1,2,,10i B Bij j j dS S i ==-=∑ .A 类中各序列的氨基酸向量到B 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i A B ABij j j dS S i ==-=∑ ;B 类中各序列的氨基酸向量到A 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i BA BAij j j dS S i ==-=∑ . 我们认为两个DNA 序列的氨基酸向量的距离越近,则这两个序列的氨基酸拟合程度越高,这样确定如下分类准则:(1)DNA 序列的氨基酸向量与A 的重心A S 的距离0.7733d <时,则序列属于A 类;(2)DNA 序列的氨基酸向量与B 的重心B S 的距离0.6660d <时,则序列属于B 类;(3)否则说明该DNA 序列无法归类.应该说明的是,由数值结果(见下表)知,这种准则不会将己知的A 类归于B 类,己知的B 类中的序列归于己知的A 类. 数据结果如下:根据序列21-40的如下的数据结果:用上述的分类准则对序列21-40进行分类得: A 类:27,34,35 B 类:28评析:模型四引入DNA 的氨基酸向量到己知类别(A 类,B 类)重心的距离,提出分类准则,对未知DNA 序列进行分类,具有很好的新意,这样就把一个DNA 序列的排列问题转化为一个空间向量的距离问题.若某DNA 中序列的氨基酸含量的百分比向量到己知的类别的重心距离小,则说明这个DNA 中的序列各种氨基酸含量的百分比与己知类别的氨基酸含量的百分比拟合程度较高,则归入己类别,具有很高的生物学参考价值.模型五:模糊聚类分析分类法如题目已知:DNA 序列1~20,按一定的方法分成A,B 二类,我们用模糊聚类分析方法建立A,B 二类合并后的20个序列的相似矩阵2020()ij R r ⨯=,其中20AB AB AB AB ijikjkij SSSSr --=∑然后通过平方法求其他传递闭包R ',我们取λ水平为0.73,这样将20个序列分为二类A '类和B '类,与原来的A 、B 两类唯一区别是A 类中序列4通过处理后划分到B '类中去,这种分类方法与原来已分好的A ,B 类所形成的差异,其原因可能有以下几种(1) 原来的分类方法有误 (2) 序列4数据有误 (3) 数据信息特征的提炼不够当然我们用某些特殊方法使得分类结果与原来假定的分类吻合.如凡以gt 开头的序列划分为B 类,但这仅仅是一种数字游戏,看不出实际的意义,而且对后面的数据划分无从下手.为了避免A 中序列4的异类特性对A 类整体特征的影响,我们将它从 A 类中删除,只留下其余9个序列作为进一步分析的对象. 我们将待分类的20个序列的集合定义为C .C 中序列i C 与A 中(或B 中)每个元素)9,,1( =i a i 或)10,,1( =i b i 的相关系数的平均值定义为ia r (或ib r )对于C 中任一元素i c ,如ib ia r r >,且6.0>ia r ,则认为i c 隶属于A 类:如ia ib r r >,且6.0>ib r ,则认为i c 隶属于B 类。
基于模糊聚类算法的DNA序列分类模型
病死及遗传进化全部信息, 对研究人类 自身有重大意义¨ j . D NA全序 图是由4 个字符 A , T , c , G组成, 按一定的 方式排成长约 3 0亿中间没有标点符号的序列, 破解这一长序列, 是具有相 当难度的课题之一.目前, 很多学者 已经 开展 了相 关 的研 究, 但 只是 发现 D N A 序 列 中存在 着局 部性 和全 局性 , 进 一步 理解 DNA全 序 列的 内涵对 人 类有 十分 重 要 的意 义 . D NA序列 的 分类 问题是 研究 D NA序列 的有 益尝 试,问题 如下 : ( 1 ) 有 已知类别 的 2 0个人造 D NA序列 , 分 为
自然 科 学 版 西南民族 大学学报 ’
l
Ma
2 … O1 3
d o i : I O . 3 9 6 9 / j . i s s n . 1 0 0 3 - 42 71 . 2 01 3 . 0 3 . 1 7
基 于模糊 聚类算法 的 D N A 序列分类模型
韦相
( 红 河 学院 计 算 机 科 学 与技 术 系,云 南 蒙 自 6 6 1 l 0 O 1
第 3期
韦相: 基于模糊聚类算法的 D N A序列分类模型
3 8 3
定义 4 模糊相似关系: 若模糊关系 R是 x上各元素之 间的模糊关系, 对于任意 x , y ∈ x , 满足: ( 1 ) 自反性 : R ( x, X) =1 ;
( 2 )对 称性 : R ( X, y) =R ( Y, x ) ; 当论 域 X={ X 1 , X 2 …. , x } 为 有 限时, x 上 所有成 员 的模 糊关 系 R就构 成模 糊相 似 矩阵
中图分类号: 0 2 4
11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评
2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
DNA序列的分类
第31卷第1期2001年1月数学的实践与认识M AT HEM A TICS IN PRACTICE A ND T HEORYV ol.31 N o.1 Jan.2001 任意选出比较多的(为了保证较高的准确性),利用key w ord作为分类标准,然后利用本文提供的加权系数的确定方法就可以定出一个具体的定量标准.具有一定实用价值.参考文献:[1] 李 涛,贺勇军等.M AT LAB工具箱应用指南——应用数学篇.电子工业出版社.[2] 袁亚湘.最优化方法.科学出版社.[3] 张乃孝,裘宗燕.数据结构——c++与面向对象的途径.高教出版社.[4] 汪仁官.概率论引论.北京大学出版社.[5] 陈家鼎,孙山泽等.数理统计学讲义.高教出版社.The Grouping of DNA Sequences ModelYANG Jian, WANG Chi, YANG Yong(Peking U niv ersity,Beijing 100871)Abstract: In this paper,a metho d to classify the DN A sequences is pro po sed.M at hem aticalmethods such as statist ics and optimizatio n ar e used to build t he model.T he data is analysedsufficiently and the“cr itical w or ds”is g ot,w hich can r epresent the char acter istics o f eachgr oup.A ccor ding to this,a quant itative standard for gr ouping is br ought fo rw ar d.T his modelcan pr operly classify t he g iv en data thr oug h t esting.Fir st,t he str ings w hich appear repeatedly(called w or ds)in t he g iv en data ar e scanned out.T he sta ndard frequency and dispersion foreach wo rd ar e calculat ed.Seco nd,using the L east Squar es method,t he pr io rit y functio n isfix ed.T hr oug h stepwise optimizat ion,the co efficients ar e made stable.T hird,the key wo rdsar e selected out and calculate the w eig ht accor ding t o t he pr io rity functio n.A t last,using the“analyse hier ar chy pro cess”,the undeterm ined dat a is classified.T his met ho d can classify theundeter mined data(N o.21—N o.40)fair ly w ell,it can also g iv e g oo d result fo r the last182sequences.DNA序列的分类韩轶平, 余 杭, 刘 威指导老师: 杨启帆(浙江大学,杭州 310027)编者按: 本文借助于计算机符号处理的能力来把握序列中不同碱基的丰度特征,从而进行了利用数理统计方法的分类研究.而后引入相关度分类判别算法及反馈机制来比较碱基的相对位置,在既定方向上颇具新意地把工作推向深入.不足之处在于,未能使用相关度工具对各类样本分别进行分析;此外,“纯数学”必须与其他学科紧密结合才会有优秀的建模工作,本文虽然对编码氨基酸的三联体进行初步探讨,着墨处自是轻淡许多.摘要: 本文对A 题中给出的DNA 序列分类问题进行了讨论.从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型,马氏距离判别模型以及Fisher 准则判定模型;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法,并进一步研究了带反馈的相关度分类判别算法.对于题中所给的待分类的人工序列和自然序列,本文都一一作了分类.接着,本文又对其它各种常见的分类算法进行了讨论,并着重从分类算法的稳定性上对几种方法作了比较.1 问题的重述(略)2 模型的条件和假设(略)3 符号约定na :任一给定序列中碱基A 的百分含量;ng :任一给定序列中碱基G 的百分含量;nt:任一给定序列中碱基T 的百分含量;nc :任一给定序列中碱基C 的百分含量.Gi :由某些具有相同属性的个体组成的类4 问题的分析和解答4.1 概述根据题意,我们首先要提取出一个序列的特征,然后给出它的数学表示,最后选择并构造基于这种数学表示的分类方法.对于一个任意一个DNA 序列,我们认为,反映该序列特征的方面有两个:1.碱基的含量,反映了该序列的内容;2.碱基的排列情况,反映了该序列的形式.4.2 基于碱基含量特征分类的模型首先,我们考虑采用序列中的A ,G ,T ,C 的含量百分比作为该序列的特征.这样的抽取特征的方法具有其生物学的意义.前面提到过,在不用于编码蛋白质的序列片断中,A 和T 的含量特别多些,因此以某些碱基特别丰富作为特征去研究DN A 序列的结构是具有可行性的.将序列中的A ,G ,T ,C 的含量百分比分别记为na ,ng ,nt ,nc ,则得到一组表征该序列特征的四维向量(na ,ng ,nt ,nc ).考虑到na ,nt ,ng ,nc 线性相关(na +ng +nt +nc =1),所以我们采用简化的三维向量(na ,nt ,ng )来进行计算.对于标号为i 的序列,记它的特征向量为X i .显然,任意序列的特征向量与一个3维空间的点对映.一般的判别问题为:设有k 个类别G 1,G 2,…,G k ,对任意一个属于G i 类样品x ,其特征向量X 的值都可以获得.现给定一个由已知类别的一些样品x 1,x 2,…,x n 组成的学习样本,要求对一个来自这k 个类别的某样品x ,根据其特征向量X 的值作出其所属类别的判断.在本题DNA 序列分类中,k =2,G 1=A ,G 2=B ,特征向量X 是三维的.学习样本共包含n =20个样本,其中10个属于A ,10个属于B .我们分别采用了欧氏距离(Euclid)分类模型,马氏距离(Mahalanobis)分类模型和Fisher 判别模型来对序列样本分类.391期韩轶平等:DN A 序列的分类4.2.1 欧氏距离(Euclid)分类模型在欧氏距离(Euclid)分类模型中,把每个样本视为三维空间的一个点,以其到不同集合几何中心的欧氏距离作为判据.具体的算法如下:1.计算属于A类与属于B类的10个样本点的集合各自的几何中心:C A=110∑10i=1X i C B=110∑20i=11X i 2.对于给定的样本点X i,分别计算该点到C A的欧氏距离D A=ûX i-C Aû,以及该点到C B的欧氏距离D B=ûX i-C Bû;3.判别准则如下:(1)若D A<D B,则将X i点判为A类;(2)若D A>D B,则将X i点判为B类;(3)若D A=D B,则将X i点判为不可判类;用上述算法对已知样学习样本A1—A20进行分类,结果是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%.用上述算法对未知的人工序列A21—A40进行分类,得到的结果是:A类:22,23,25,27,29,30,32,34,35,36,37,39;B类:21,24,26,28,31,33,38,40用上述算法对未知的自然序列N1—N182进行分类,得到的结果见附录.(略)用欧氏距离作为判据虽然简便直观,但存在着明显的缺陷:从概率统计的角度来看,用欧氏距离描述随机点之间的距离并不好.因此当待分类样本是随机样本,具有一定的统计性质时,这个模型并不能很好的描述两个随机点之间的接近程度.4.2.2 马氏距离(Mahalanobis)分类模型为了克服采用欧氏距离时的缺陷,我们采用马氏距离来代替欧氏距离.改进后的算法如下:设:三维总体G的均值为L=(L1,L2,L3)T,协方差矩阵为非奇异阵V3x3,则三维样本X 到总体G的马氏距离为:dm(X,G)=(X-L)T V-1(X-L)其中未知的L可用学习样本的均值来代替,协方差矩阵V可用学习样本的样本协方差矩阵来代替.将马氏距离用于判别模型,遵循判据如下:1.若dm(X,A)<dm(X,B),则判定x为A类;2.若dm(X,A)>dm(X,B),则判定x为B类;3.若dm(X,A)=dm(X,B),则判定x为不可判类;用上述算法对已知样学习样本A1—A20进行分类,结果是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%.用上述算法对未知序列A21—A40进行分类,得到的结果是:A类:22,23,25,27,29,30,32,33,34,35,36,37B类:21,24,26,28,31,38,39,40用上述算法对未知的自然序列N1—N182进行分类,得到的结果见附录.(略)40数 学 的 实 践 与 认 识31卷4.2.3 Fisher 准则分类模型在多维空间里分类的方法不仅仅是距离分类法一种,常用的Fisher 分类法就是另一种基于几何特性的分类法.在距离判别模型中,三维空间的样品X 被映射为一维的距离d 来作判断.Fisher 分类法的思想也是把三维空间的样本映射为一维的特征值y ,并依据y 来进行判别.具体的作法是先引入一个与样本同维的待定向量u ,再将y 取为X 坐标的线性组合y =u T x .而u 的选取.要使同一类别产生的y 尽量聚拢,不同类别产生的y 尽量拉开.这样,我们便可将样品X 到某一类G 的距离定义为y =u Tx 与y c =u Tc 之间的欧氏距离:L (X ,G )=ûy -y c û=ûu T(x -c )û其中c 为G 的几何中心.Fisher 分类的判据为:1若L (X ,A )<L (X ,B ),则判定x 为A 类;2若L (X ,A )>L (X ,B ),则判定x 为B 类;3若L (X ,A )=L (X ,B ),则判定x 为不可判类.根据对u 的要求,Fisher 提出了比较有效的选择算法,利用该算法,从学习样本中获得:u =(0.3365,-0.087,0.9377)TL (X ,A )=û0.3365*(na -0.2860)-0.087*(nt -0.1550)+0.9377*(ng -0.3830)ûL (X ,B )=û0.3365*(na -0.2940)-0.087*(nt -0.5010)+0.9377*(ng -0.1010)û 用上述算法对已知样学习样本A1—A20进行分类,结果仍然是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%.对于未知序列A 21—A 40进行分类,得到的结果是:A 类:22,23,25,27,29,34,35,36,37;B 类:21,24,26,28,30,31,32,33,38,39,40用上述算法对未知的自然序列N 1-N 182进行分类,得到的结果见附录.(略)4.2.4 三种距离分类模型的比较表1欧氏距离法马氏距离法Fisher 准则法30A A B 32A A B 33B A B 39ABB这三种模型在分类结果上有一定的区别,对于序列A30,A32,A33及A 39,三种方法给出了不同结果,见表1.对于这种情况,我们提出一个联合判定准则:对于任一个序列,当三种分类法结果完全一致时,认为它判别有效;若不然,当三种分类法结果不一致时,认为该序列为不可判类.对于三种方法都无法正确分类的A4序列,可认为是异常情况,不影响算法的性能.4.3 基于碱基位置特征分类的模型虽然上述采用碱基A,T ,G,C 在DN A 序列里的含量作为该序列的特征的方法有一定的生物学意义并且在DNA 序列的分类中获得了比较理想的结果.但是,用这种方法抽取特征,没有充分体现碱基排列的信息量,仅仅考虑碱基含量并没有体现碱基在序列中的排列情况.例如,序列(AT GC)与序列(CGT A)有着相同的碱基含量,他们的特征向量是完全一样的,并不能体现在排列结构上的不同.因此,直接从序列本身的碱基排列顺序来考察序列就成为一种更加合适的提取特征的方式.因此采纳数值序列中的相关性分析设计了算法.411期韩轶平等:DN A 序列的分类通常任意两个数值序列的相关性都是通过这两个序列的相关函数来刻画的.由于本题中的DNA 序列是非数值的序列,同时无法将碱基按通常的方式进行数值化,因而刻画任意两个序列的相关程度的变量需要重新定义.表2ªA G T C A 1000G 0100T 0010C14.3.1 定义一:相关运算“á”对于任意碱基m 和n ,相关运算“m án ”的值由表2定义:4.3.2 定义二:哑元O除四个碱基外,我们另行定义一个哑元O ,规定任意碱基与哑元作相关运算的结果都为0.4.3.3 定义三:序列的延拓对于任意一个长度为N 的序列A i (其中0≤i <N ),定义它的延拓为如下一个无限序列:A +j :当0≤j <N 时,A +j =A j ;当-∞<j <0及N ≤j <∞时,A +j =O .即在该序列的左右两端均用哑元O 填充.4.3.4 定义四:序列的相关度对于任意的两个序列A N ,B M ,定义序列A 和序列B 的相关序列S i 为:S i =∑∞k =0A+k +2-iáB +k (0F i F n +m -1) 定义序列B 对序列A 的相关度为:S =M A X {S i } (0F i F n +m -1) 例如对于序列A {T ,C ,T }与序列B {A ,G ,T ,C ,T ,C },相关序列及相关度的计算步骤如下:第一项:S 0=A 2ªB 0=T ªA =0…A +-1A +0A +1A +2A +3A +4A +5A +6A +7A +8……O T C T O O O O O O ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…第二项:S 1=A 1ªB 0+A 2ªB 1=T ªG +C ªA =0…A +-2A +-1A +0A +1A +2A +3A +4A +5A +6A +7……O O T C T O O O O O ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…第三项:S 2=A 0ªB 0+A 1ªB 1=T ªT +G ªC +A ªT =1…A +-3A +-2A +-1A +0A +1A +2A +3A +4A +5A +6……O O O T C T O O O O ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…以下类推得(表略):第四项:S 3=A 0áB 1+A 1áB 2+A 2áB 3=T áC +C áT +T áG =042数 学 的 实 践 与 认 识31卷第五项:S 4=A 0áB 2+A 1áB 3+A 2áB 4=T áT +C áC +T áT =3第六项:S 5=A 0áB 3+A 1áB 4+A 2áB 5=T áC +C áT +T áC =0第七项:S 6=A 0áB 4+A 1áB 5=C áC +T áT =2第八项:S 7=A 0áB 5=T áC =0第八项:S 7=A 0ªB 5=T ªC =0…A +-8A +-7A +-6A +-5A +-4A +-3A +-2A +-1A +0A +1……O O O O O O O O T C ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…两序列的相关度为S =M AX {S i }=S 5=3;4.3.5 定理一:任意给定三个序列S ,A ,B ,若A 与S 的相关度大于B 与S 的相关度且B 与A 等长,则A 与S 属同一类的可能性大于B 与S 属同一类的可能性4.3.6 基于相关度的分类算法:利用上述概念,我们构造了一个基于相关度的分类算法,如下:1.对于序列A21—A40,N1—N182中的任意一个序列,将其与序列A 1—A20中的每一个依次作求相关度的运算,结果记为SS1,SS2,SS3……SS20;2.对于前十个相关度,求出它们的平均相关度SA =(SS 1+SS 2+……SS 10)/10,并定义其为与A 类的相关度;3.对于后十个相关度,求出它们的平均相关度SB=(SS11+SS12+……SS20)/10,并定义其为与B 类列的相关度;4.记W =SA /SB ,根据定理一,判别依据为:若W>1,则将X 点判为A 类;若W<1,则将X 点判为B 类;若W =1,则将X 点判为不可判类;5.W 可作为衡量该序列分类的可信性的一个标准.显然当W 越接近于1,该序列与A 类的相关性和与B 类的相关性区别就越小,分类结果就越不可信;反之,W 与1差的越远,该序列与A 类的相关性和与B 类的相关性区别就越小,分类结果就越可信.这个变量对我们下面带有反馈的相关度分类算法具有重要的意义.用上述算法对已知样学习样本A1-A20进行分类,得到的结果是分类完全正确,A,B 类可以完全分开,准确率达到100%.对于未知序列A 21—A 40进行分类,得到的结果是:A 类:222325272934353637B 类:2124262830313233383940用上述算法对未知的自然序列N 1—N 182进行分类,得到的结果见附录(略).4.3.7 相关度分类算法的改进——带有反馈的分类算法上述的相关度分类算法是一次性学习过程,学习的过程只体现在学习样本的过程中,而在对未知样本分类的过程中没有对已分类情况作出修正,即是属于无反馈型的学习.然而,采用反馈型的学习过程会有更好的分类结果.一般说来,带反馈的算法以神经网络算法最具有代表性.但对于一般的分类算法而言,可以采用多次反复分类的办法来实现反馈的目431期韩轶平等:DN A 序列的分类44数 学 的 实 践 与 认 识31卷的.针对上述的相关度分类算法,我们设计了如下带反馈的相关度分类算法:1.对全部182个样本进行相关度分类;2.计算全部182个W的值3.在所有被判为A类的待分类序列中,取出W值最大的一个,作为标准学习样本,加入到A类的标准样本中(若有多个,则全部加入到A类中,若无被判为A类的序列,则保持A类标准学习样本不变.)4.在所有被判为B类的待分类序列中,取出W值最小的一个,作为标准学习样本,加入到B类的标准样本中(若有多个,则全部加入到B类中,若无被判为B类的序列,则保持B类标准学习样本不变.)5.重复对剩余的待分类序列进行相关度分类,并按上述步骤不断扩充标准学习样本,直至全部的待分类序列都被加入到标准学习样本中.我们用新算法编程对182个序列进行了重新分类,得到了不同于原无反馈分类算法的结果,而且新的分类结果的W值明显与1离开的更大,这使我们有理由相信,反馈对算法的性能有一定的改进.5 进一步研究的问题5.1 基于生物学的特征抽取我们上述的两种特征抽取方法更多的是从纯数学眼光来研究序列的特征.除此之外,我们还可以考虑DNA序列在生物学意义下的数学特征.一个比较容易考虑到的方面便是三联体在DNA序列中的出现.由于具有三联体形式的遗传密码子对蛋白质的合成具有决定性作用,有理由认为它在序列中的出现体现了该序列的本质特征.题中没有明确的指明所给的序列是全序列还是序列片断,我们无法对三联体在序列中的出现位置进行定位,一种代替的方法是将序列假定为全序列,从第一个碱基开始三个三个一组的划分为密码子,然后统计64个密码子的出现概率,形成64维的向量.再使用距离分类等模型,或利用生物学的知识先将64维向量的某几维合并,降维后再分类.我们编程演算后,觉得该种分类方法比较依赖于密码子的划分,一位碱基的缺失或错位均会造成分类错误,所以必须加以修改,一条思路是尝试将序列移一位或二位再划分密码子,由于时间所限,没有进一步研究.5.2 基于人工神经网络的模型人工神经网络是一种带反馈的自适应算法,随着计算机速度提高被广泛应用.对于本题的情况采用神经网络模型是合适的,它可以在给定特征向量的情况下代替一般的距离分类模型.对于基于碱基含量的特征向量(na,nt,ng),构造了如下的反向传播算法:1.网络简单的分为两层,一层为输入层,有3个单元,分别为权重a,b,c;一层为输出层,有1个单元,为判别结果;各单元均为Sigmo id型函数激励.2.设定(a,b,c)的初值为(0,0,0);A类学习样本的标准输出定为1;B类学习样本的标准输出定为03.对每一个学习样本,计算S=a*na+b*nt+c*ng作为输出;4.将学习样本的标准输出与S相减,所得的差用来指导权重的改变,权重的改变遵从Widro w-H off准则.5.反复学习样本,到权重值稳定收敛.6.代入待分类样本,分类.用上述算法所得到的结果与普通的分类模型没有区别.事实上当权值稳定收敛后,S =a *na +b *nt +c *ng 就是特征空间的一张(超)平面,从这一点来说,人工神经网络模型与一般的距离分类模型得到的结果没有两样.考虑到人工神经网络模型还存在结果对初值有较强敏感性,缺乏选择理想步长的准则和收敛性等问题,在一定的时间内,我们无法较好的解决这些问题,所以我们也没有作进一步讨论.6 算法的稳定性前面比较算法的时候,曾多次提到分类算法的稳定性问题.分类算法的稳定性是除了算法的成功率之外的另一较重要的指标.所谓分类算法的稳定性,是指算法在样本发生了轻微变化时作出正确判别的能力.对于本题,是指算法在样本序列发生了轻微的碱基缺失,错位,错排情况时作出正确判别的能力.因为本题要求我们研究的是DNA 序列粗粒化和模型化的问题,所以分类时是对序列的整体特征进行区分.局部碱基的组成变化应该对算法的分类结果没有影响.我们所提出的几个模型均较好的满足了这一点.参考文献:[1] 孙乃恩,孙东旭,朱德煦.《分子遗传学》.南京大学出版社,1996.[2] 白其峥.《数学建模案例分析》.海洋出版社,2000.[3] 潘德惠.《数学模型的统计方法》.辽宁科学技术出版社,1986.[4] 阎平凡,黄端旭.《人工神经网络》.安徽教育出版社,1991.[5] 李振刚.《分子遗传学概论》.中国科学技术大学出版社,1990.[6] Du ane Hanselman.Bruce Littlefield 《M asterin g M AT LAB:a comp rehensive tutorial and reference 》.Prentice Hall,1996.Classification of DNA SequencesHAN Yi -ping , YU Hang , LIU Wei(Zhejiang U niv.,Hang zho u 310027)Abstract : T his paper pr oposes sever al metho ds fo r the classificatio n of DN A sequences.W e noticed that differ ent sequences hav e different alkali r adicals and t her efo re set up models using Euclidean distance ,M ahalano bis distance a nd F isher principle .We also no ticed that differ ent sequences hav e differ ent permutat ions o f alkali r adicals a nd an alg or ithm using r elativ ity analy sis is pr oposed.F ur ther w e discussed a r elativity analy sis alg or it hm w ith feed-back mechanism.A s to t he natural and art ificial data g iv en our alg or ithms w o rk well and fine r esults ar e giv en .A t last sever al o ther co mmon algo rithms are co mpar ed ,especia lly o n theirstabilities .451期韩轶平等:DN A 序列的分类。
DNA序列的分类
置信度为 1 - α的置信区间为 ξ - t1 - α ( n - 1) 2
Sn
3
构成蛋白质的 20 种氨基酸 ,不同 DNA 链含的碱基的组合有 其各自的特征 . [1 ] 通常是由四个字符组成的三字符串 ,即一个密码子作为 一体共同构成序列片段 , 为便于找到各个序列之间的联系 , 我们设三维空间中 ( x , y , z ) 点代表一个密码子 ,这样识别每 一个序列的类型便转化为辨别该序列中 “点” 之间的关系 ,我 们从分析两 “点” 间的距离的大小入手 ,逐步找到该序列中所 有 “点” 间距离的均值 ,具体做法如下 :
N (μ,σ ) , 故
2
图 1 A 类向量的分布
1
n
i =1
ω ∑ i , 应计算出样
n
1
n
i =1
) 2 , 因为 ω ∑( ω i - ξ i 服从正态分布
n
- μ +ξ ( ) σ σ 服从标准正态分布 N 0 , 1 . 这里 为未
n
知参数 , 而所求的 μ 也为未知参数 , 所以此式不可取 . 由此很
1 模型假设 (1) 假设所截取的序列都能反映被截取的序列的 DNA
1. 2 问题的分析
在此问题中 , 主要目的是找到 DNA 链上的碱基排布规 律 ,由于碱基只有四种 ,因此我们可以构造多维空间 ,从而给 出它们的数学表达式 , 比如几何空间或向量空间的元素 . 因 此 ,通过转化为数学问题 , 使我们从看似随机的序列中找出 它们的规律 ,但同时 ,我们又不能忽视 DNA 序列本身具有的 生物特征 ,因此 ,希望找到一种既符合生物学规律又可利用 数学的方法来有效地解决这个问题 ,从而使该方法具有科学 性和指导性 .
2000年全国大学生数学建模大赛A题各类优秀论文简介
DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的 Neural Network Toolbox(神经网络工具箱 )中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA序列的分类结果 ...KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述KB)。
DNA序列分类
DNA序列分类摘要本文以题目的有关数据为资料,对如何对DNA序列分类进行研究,针对各个问题,我们分别建立了欧氏距离分类模型、马氏距离分类模型、Fisher分类模型多个数学模型,经过严密的理论论证,精确的计算,很好的解决了DNA序列归类的问题。
针对问题一,我们首先根据的相关知识/理论,建立了欧式距离模型模型。
为了解决DNA序列分类,我们运用统计、最优化、特征值提取等数学方法,从已知样本序列中提炼出能较好代表两类特征的关键字符串,我们可以得到量化的分类标准,对所给的DNA序列进行分类。
在问题二中,我们同样采用了问题一中的三种模型,进行检验。
在求解的过程中,我们在数据的处理上不可避免的存在不少误差,我们通过探讨研究,给出了误差分析,分析了其中的误差产生的来源,尽量避免由于误差所造成求解的错误,进而得出了一个较好的方案。
我们还对模型进行改进,通过多个模型的比较,使得模型更加合理,更加切合实际。
从而较好的解决了对各种DNA序列的分类。
关键词:序列分类;特征分析;分类模型;最优分类一、问题的重述㈠背景知识1、DNA序列的概况从2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
2、DNA序列排列原理DNA序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,在DNA全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性。
㈡问题作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。
dna分子的数学模型
dna分子的数学模型
DNA是生物体内最基本的遗传物质,是遗传信息的携带者。
对于
人类来说,理解DNA的结构和功能是关键的科学研究之一。
在数学上,DNA也被建立了很多的模型,以揭示其内在的结构和特点。
首先,DNA分子可以被建立为线性链,其中每一个单元是一种特
定的核苷酸。
在这个模型中,我们可以用数学公式描述出这个线性链
的形状和运动状态。
此外,越来越多的研究人员采用较新的方法,如
纳米科技和单分子成像技术,来获得DNA的更多信息。
另外一个重要的DNA数学模型是DNA的二级结构。
这个结构包括
了两个核苷酸链相互缠绕形成的双螺旋的形态。
在这个模型中,我们
可以用数学公式描述出双螺旋的形状和结构,以及核苷酸之间的距离
和角度等特征。
除此之外,还有很多其他的DNA数学模型,如DNA序列分析模型、三维DNA模型等等。
这些模型都能够对DNA的科学研究和应用起到促
进作用。
例如,在基因编辑和疾病预测等领域,DNA数学模型的应用将有助于科学家在基因工程和医学治疗上取得更好的进展。
总之,DNA数学模型在现代生物技术研究中扮演着不可或缺的角色。
它们揭示了DNA分子的结构和特点,为我们深入了解生命的奥秘
提供了帮助,同时也为未来的基因工程和医学治疗提供了重要的科学
依据。
DNA序列分类模型
DNA序列分类模型
刘丽
【期刊名称】《重庆通信学院学报》
【年(卷),期】2005(32)3
【摘要】本文对2000年全国大学生数学建模竞赛A题DNA序列分类给出了高达92.73%的分类方法,方法简明有效,可作为这一问题的经典解法.
【总页数】4页(P393-396)
【作者】刘丽
【作者单位】合肥工业大学理学院
【正文语种】中文
【中图分类】O29
【相关文献】
1.DNA序列判别分类模型 [J], 王显金;阳军
2.DNA序列判别分类模型 [J], 王显金;阳军
3.基于隐马尔科夫模型的DNA序列分类方法 [J], 郭彦明;陈黎飞;郭躬德
4.基于模糊聚类算法的DNA序列分类模型 [J], 韦相
5.应用LDA模型的DNA序列分类方法 [J], 冯超
因版权原因,仅展示原文概要,查看原文内容请购买。
DNA 序列的分类
欧 氏 距 离描述随 机点之 间的距离 并 不好4因 此 当待 分 类样 本是随 机样本3具有 一定的 统计
性 质 时 3这 个 模 型 并 不 能 很 好 的 描 述 两 个 随 机 点 之 间 的 接 近 程 度 4
!"#"# 马氏距离%RSTS)SUVW*X,分类模型 为了克 服采用欧氏 距离 时的 缺陷3我们 采 用 马氏 距离 来代 替欧氏距离4改进 后 的 算 法
对 于任意一个长度为 : 的序列 ;<=其 中 ,><
? :@%定 义 它 的 延 拓 为 如 下 一 个 无 限 序 列 1
;A B1当 ,>B?: 时%;AB C;BD当EF?B?,及 :>B?F 时%;A BC9! 即在该序列的左右两端均用哑元 9填充!
-./.- 定义四1序列的相关度
8类 5万A6方3AJ数3A据O3AP3F63FP3FK3J9
用上述算法对未知的自然序列 Q6IQ6PA进行分类3得到的结果见附录 "%略,
B期
韩轶平等<‘[W 序列的分类
VB
!"#"$ %&’()*准则分类模型 在多维空间里分类的方法不仅仅是距离分类法一种+常用的 ,-./01分类法就是另一种
基于几何特性的分类法2在距离判别模型中+三维空间的样品 3 被映射为一维的距离 4来 作 判断2,-./01分类法的思想也是把三维空间的样本映射为一维的特征值 5+并依据 5来进 行判别2具体的作法是先引入一个与样 本 同维 的 待 定向 量 6+再 将 5取为 3 坐 标的线 性组 合 576892而 6的 选 取2要 使 同 一 类 别 产 生 的 5尽 量 聚 拢+不 同 类 别 产 生 的 5尽 量 拉 开2 这样+我们便可将样品 3 到某一类 :的距离定义为 57689与 5;768;之间的欧氏距离<
DNA 序列分类的数学模型
6期
吕金翅等 4 = >? 序列分类的数学模型
9 @
单 层感 知机是 一个具有 单层 计算 神 经 元的 神 经 网络 ! 并由 线形域 值单 元组 成 "原 始 的 它相当于单个神经元 "当它用于两类模式的分类时 ! 相 # $ % & $ ’ ( % ) *算法只有一个输出节点 ! 当于在高维样本空间中 ! 用一个超平面将两类样本分开 "+ 也已证明 ! 如果两类 " , ) $ * . / 0 ( ( 模式是线形可分的 1 指存在一 个 超 平 面 将 它 们 分 开 2 则 算 法 一 定 收 敛 "感 知 器 特 别 适 用 于 ! 简单的模式分类问题 ! 也可用于基于模式分类的学习控制和多模态控制中 " 修正方案 4 3 " 首先分析问题实质 ! 即采用一个单一神经元解决简单分类问题 4 将 5个输入矢量分为两 类! 其中一部分为 6 另一部分为 7 图6 ! "最后确定网络结构 1 8 9 2 4
g第二类数学模型神经网络模型由于神经网络具有运用已知认识新信息解决新问题学习新方法预见新趋势创造新思维的能力所以我们将神经网络处理问题的方法介入进来处理模式分类的问题quot
第! "卷第 "期 # $ $ "年 "月
数学的实践与认识 %&’ () %&’ * + ,* -. / &+ ’ * + )&-0 ’ () 1/ 2
34 5 6 ! " -4 6 " 8 9 : ;# $ $ "
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
DNA序列分类模型
DNA序列分类模型重庆市数学建模竞赛一等奖王勇, 莫志锋, 秦力顼(1999级自动化学院)[摘要]本文根据题中所给两个已知类别的DNA序列进行结构特征分析,从中提取信息和构造分类模型,对未知类别的DNA序列进行分类。
我们构造了三个分类模型,它们分别是:特征密码子概率分布判别模型、图论最小生成树模型和向量空间直观判别模型。
后两种分类结果几乎一致,判别率在90%左右,误判率控制在(0.05-0.1)范围。
问题一结果为:模型一的结果:A类有7个:22,23,27,29,34,35,37;B类有10个:21,24,26,28,30,31,32,33,38,40;不能判断的有3个:25,36,39;模型三的结果:A类有10种:22,23,25,27,29,34,35,36,37,39;B类有10种:21,24,26,28,30,31,32,33,38,40;问题二结果为:模型二的结果:A类有108个,B类有74个。
具体情况见文中答案。
模型三的结果:A类有120个,B类有62个。
具体情况见文中答案。
我们还对三种分类方法进行了类比,认为模型二、三方法新颖独特,结果稳定,它们是一种较好的分类方法。
并且对各种计算结果进行误差分析和检验等工作。
一、问题的重述本问题为一个DNA序列分类问题。
假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号1—10 为A类,11-20为B类。
要求我们从已经分类了的DNA序列片段中提取共同特征构造分类方法,并评价所用分类方法的好坏,从而构造或选择一种较好的分类方法。
测试对象是20个未标明类别的人工序列(标号21—40)和182个自然DNA序列。
二、模型的假设及符号说明1、名词解释:碱基:在生物学中,用A,T,C,G四个字符代表组成DNA序列的四种碱基;密码子:在遗传学中每三个碱基的组合被称为一个密码子,可以编码一个氨基酸,共有64个,还可以由密码子组成20个氨基酸。
DNA双螺旋结构模型与生物医学的发展
DNA双螺旋结构模型与生物医学的发展DNA(脱氧核糖核酸)是构成生命的基本遗传物质,其双螺旋结构模型的发现对于生物医学的发展产生了重大的影响。
本文将探讨DNA 双螺旋结构模型的发现以及其对生物医学领域的贡献。
1953年,詹姆斯·沃森和弗朗西斯·克里克提出了DNA的双螺旋结构模型。
他们基于一系列的实验证据和逻辑推理,成功地解析了DNA 的结构。
这一突破性的发现不仅为了他们赢得了1953年的诺贝尔奖,也为生物医学领域的研究开辟了新的道路。
DNA的双螺旋结构模型揭示了其信息传递机制。
DNA由四种碱基(腺嘌呤、鸟嘌呤、胸腺嘧啶和腺嘧啶)组成,通过碱基对之间的氢键连接呈现出双螺旋结构。
这种结构使得DNA能够进行复制和转录过程,并将遗传信息传递给后代。
这一发现极大地推动了基因组学和遗传学的研究。
在生物医学领域,DNA双螺旋结构模型的发现对疾病诊断、药物研发和基因治疗等方面产生了深远的影响。
首先,通过对DNA序列的解读,科学家们能够准确地识别基因突变与疾病之间的联系。
这为疾病的早期预防和诊断提供了可靠的依据。
例如,在癌症研究中,通过分析DNA的突变,科学家们能够筛查高风险人群,从而进行早期干预和治疗。
其次,DNA的双螺旋结构为药物研发提供了新的思路。
许多药物的研发目标是调控人类基因的表达水平,以治疗某些疾病。
通过理解DNA的双螺旋结构和基因激活机制,科学家们能够设计针对特定基因的药物,并实现精准治疗。
这种个体化治疗的方法在遗传性疾病和癌症等领域具有广泛的应用前景。
最后,DNA双螺旋结构模型对基因治疗的发展起到了至关重要的作用。
基因治疗是一种通过向患者体内传递正常的基因序列来治疗遗传性疾病的方法。
掌握了DNA双螺旋结构模型以及基因转导技术,科学家们能够将修复后的基因序列准确地引导到患者的细胞中,从而实现疾病的根治。
这种新型的治疗方法在遗传病、癌症等领域有着巨大的潜力。
总的来说,DNA的双螺旋结构模型的发现对生物医学的发展产生了深远的影响。
dna序列分类模型研究
A 欧氏距离(Euclid)分类模型
把每个样本视为三维空间的一个点,以 其到不同集合几何中心的欧氏距离作为 判据,具体的算法如下: 1、计算属于A类与属于B类的20个样本点 集合各自的几何中心:
2、对于给定的样本点Xi,分别计算该点到CA,CB 的的欧氏距离:
3、判别准则如下:
a、若DA<DB,则判为A类 b、DB<DA,则判为B类 c、若DA=DB,则列为不可判 用上述算法对已知学习样本A1-A20进行分类,除了 A4分类错误外,其余都分类正确。
将DNA序列看成一个信息流的方法由于其在实际问题 中的广泛背景,将会是一个很有价值的想法。统计学 和信息论的一套非常成熟的强大工具也会在DNA研究 中发挥巨大的作用。
方法四
常规数学模型
考虑采用序列中的A、G、T、C的含量百分比作为 该序列的特征百分比分别记为na,ng,nt,nc则得到一组表征 该序列特征的四维向量(na,ng,nt,nc),由相关性取三维 向量(na,ng,nt)即可 一般的判别问题为:设有k个类别G1,G2,…Gk,对任 意一个属于Gi类样品x,其特征向量X的值都可以获得, 现给定一个由已知类别的一些样品x1,x2,…xn组成的学习 样本,要求对一个来自这k个类别的某样品x,根据其特征 向量X的值作出其所属类别的判 断。
方法1 基于字母出现频率的分类
不同段的DNA序列中,每个碱基出现的概率并不相同。
A组的G含量较高,B组的T含量较高,为做定量化的分析!引入 数学中的内积概念,即将(A,T,G,C)的频率分别作为四 维向量的四个分量(PA,PT,PG,PC),于是得到两组向量 Ai,Bi (i=1,…10) 然后将未知的某个序列作为一个新的向量C,将它归入A组或B 组。在Hilbert空间中将向量归一化后计算内积
dna序列种类预测模型方法
dna序列种类预测模型方法
预测DNA序列种类的方法有很多种,其中一种常用的方法是利用机器学习模型,例如支持向量机(SVM)、随机森林(Random Forest)和深度学
习模型等。
这些模型可以基于不同的特征和算法对DNA序列进行分类和预测。
以深度学习模型为例,可以使用长短期记忆网络(LSTM)对DNA序列进
行分类。
这种方法的基本步骤包括数据预处理、特征提取和模型训练等。
数据预处理包括清理数据、标准化和编码等步骤,目的是将原始的DNA序列数据转化为适合模型训练的格式。
特征提取则是从DNA序列中提取出有意义的特征,例如k-mer频率、序列长度等。
最后,使用训练集对模型进
行训练,并对测试集进行预测。
除了深度学习模型外,还可以使用其他机器学习模型对DNA序列进行分类,例如SVM、随机森林等。
这些模型也可以通过特征提取和训练来对DNA
序列进行分类和预测。
总的来说,预测DNA序列种类的方法有很多种,具体使用哪种方法取决于数据的特点和预测精度要求等因素。
DNA序列分类模型
DNA序列分类模型
模型假设
1.假设所讨论的DNA序列都是从DNA序列中任意截取的一部分;
2.DNA,RNA在传递信息及整个蛋白质合成过程中,遗传密码的传递严格遵循中心法则,不考虑基因变异情况,也不考虑因其他任何因素而导致DNA,RNA的损坏问题;
3.根据碱基互补配对原则,将与RNA上密码子对应的DNA伤相邻的3
个剪辑成为DNA上的密码子;
4.假设任一给定序列中碱基A、G、T、C的百分含量已知,na、ng、nt、
nc分别表示任一给定序列中碱基A、G、T、C的百分含量
问题分析
我们首先要提取出一个序列的特征,给出它的数学表示,最后选择选择基于这种数学表示的分类方法。
对于任何一个DNA序列,我们认为,反应该序列特征的方面为碱基的含量,反映了该序列的内容。
在建立基于碱基含量特征分类模型,确定最终DNA序列的分类。
模型建立
首先,我们考虑采用序列中的A,G,C,T的含量百分比作为该序列的特征。
将序列中的A,G,T,C的含量百分比分别记为na,ng,nt,nc,则得到一组表征该序列特征的四维向量(na,ng,nt,nc),由于na,ng,nt,nc之间具有线性相关(na+ng+nt+nc=1),所以我们采用简化的三维向量(na,nt,ng)来进行计算。
为了有效地进行分类识别,首先要根据被识别的对象产生一组基本特征,并对基本特征进行变换,得到最能反映分类本质的特征。
在列举了尽可能完备的特征参数集之后,借助数学的方法,使特征参数的数目减到最小。
我们通过研究4个字符A,T,C,G在DNA序列中的排列、组合特性,主要是研究字符和字符串的排列在序列中出现的频率,从中提取DNA序列的结构特征参数。
DNA序列分类
实验29 DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。
知识扩展DNA序列分类DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。
DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。
主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。
DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。
其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。
FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。
欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
序列的分类模型
• 问题描述:2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年 可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化 的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G 按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了 这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。 破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个 目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中 隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics) 最重要的课题之一。
20
0.2000
0.0636
0,1727
0.5636
DNA序列的分类模型
• 我们设K值为2,因为我们原本就把这20个DNA的序列分为了A B两部分,最 后经过k-中心点算法(k-medoids)算法得到的是A,B两类序列的簇质心,然后 执行标准的k-均值算法 (k-Means) • k-均值算法 (k-Means)主要步骤: 指定 k = 2 (即要将数据点分成2组) • 1.以k-medoids算法得到的簇质心为各组的质心 • 2 遍历所有点,各自加入距离最近的簇 • 距离采用欧氏距离算法:N维空间内任意两点 x(x1,...xn) 和 y(y1,...yn) 之间的 距离为:
DNA序列的分类模型
• 对于本文中的数据集,1-10号数据 为A类,11-20号为B类,首先分别 对A类和B类中的四中碱基列表进行 频率统计得到数据,利用Kmeans++算法进行训练,得到A类 和B类的簇质心a和b。 • A类DNA序列各种碱基频率分析表 • 我们设K值为2,因为我们原本就把 这20个DNA的序列分为了A B两部 分,最后经过k-中心点算法(kmedoids)算法得到的是A,B两类序 列的簇质心 A 1 2 3 4 5 6 7 ....... 0.2973 0.2703 0.2703 0.4234 0.2342 0.3514 0.3514 G 0.3964 0.4144 0.4505 0.1802 0.4234 0.3964 0.3604 T 0.1712 0.1622 0.2162 0.1081 0.2342 0.1261 0,0991 C 0.1351 0.1532 0.0631 0.2883 0.1081 0.1261 0,1892
DNA序列的分类模型
• 摘要:本问题是一个关于DNA序列分类的问题。问题一是针对人工序列建立 分类模型,并分析模型的优劣。问题二是对自然序列利用问题一中的分类方 法进行分类。它是问题一的推广。 • 问题一是在20个已知类别的人工制造序列的条件下,对20个未标明类别的人 工序列(其中序列标号20—40)进行分类。要想解决这一问题,首先根据题 中所给的20个已知类别的人工制造的序列(其中序列标号1—10 为A类,1120为B类),可算出A、C、G、T在序列中出现的频率,然后用欧式距离判别 法、Fisher判别法、Bayes判别法这三种分类方法分别求出线性判别函数,得 到判对率分别为:90%、95%、80%,通过比较发现,用Fisher判别法对 DNA序列判别分类比较好,最后用该方法把20个未标明类别的人工序列进行 分类即可。 • 为了解决这些问题,本文从三个方面分析解决,方面1:基于A、G、T、C四 种碱基出现的频率,方面2:基于字母出现周期性,方面3: 基于DNA碱基序 列熵值,然后从这三个方面得出的分类再进行全面整体的分析和分类,主要 是根据不同方面的权重不同来进行分类。 • 关键词 DNA序列分类、分类模型、欧式距离判别法 权重分类 k-means++和 k-Means算法
方法讨论 : 这种方法是从概率统计的角度分析问题,通过对每个字母出现频率的计 算,找出A,B两类DNA链中的频率特性,在每组DNA链中找出其族质心,然后 利用欧氏距离算法算出其他DNA链与族质心的距离,然后比较距离大小,最 后把该DNA链归于距离小的组别,从而将其分类.但这种方法也有其局限性, 在统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关 系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的 序列不太容易分类.所以,这种方法虽然有其科学性,但还不够完善,不能 完全体现序列的所有特征.
• 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结 构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组 成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例 如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱 基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统 计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信, DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全 序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节, 突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法 往往有助于研究规律性和结构。
DNA序列的分类模型
• 问题分析 • 对于方面1基于A、G、T、C四种碱基出现的频率:,属于分类问题,为了解 决这一问题,本文首先从已知类别的人工制造序列来提取特征(为方便起见, 本文是根据A、C、G、T在序列中出现的频率来提取特征的),然后学习欧 式距离判别法、Kmeans++和KNN算法、并用matlab编程实现,最后根据已 知类别的人工制造序列来检验这三种分类方法的正确性,选出正确率比较高 的一种分类方法,并用该方法把20个未标明类别的人工序列进行分类即可。
• 模型1分析与建立 • 不同段的DNA中,每个碱基出现的概率并不相同,从生物理论中,我们知道,编码蛋白 质的DNA中G、C含量偏高,而非编码蛋白质的DNA中A、T含量偏高.因此,A、G、T、C的 频率中会含有很多的信息。 • 基于K-Means++算法求解 • 基本思路: 初始的聚类中心之间的相互距离要尽可能的远 • 算法思想:k-中心点算法(k-medoids) • 不是简单像k-means算法采用均值计算法,每次迭代后的质心都是从簇的样本点中选取, 而选取的标准就是当该样本点成为新的质点后能提高簇的聚类质量,使得类簇更紧凑。 算法使用SSE来定义一个簇的紧凑程度。 • • • • • • • • • • • 算法步骤: (1) 随机选择k个对象作为初始的中心点; (2) 重复 (3) 指派每个剩余的样本点给最近的中心点所代表的簇; (4) 随意地选择一个非中心点Orandom; (5) 计算用Orandom代替原中心点的总代价S; (6) 如果S<0 (更紧凑了),则用Orandom替换原中心点; (7) 直到不发生变化 * 其中 S 为替换原中心点后的 SSE 减去替换前的 SSE, S < 0 表示替换后 SSE 变小了,即聚类质量更好了 4. 利用这k个初始的簇质心来运行标准的k-Means算法