DNA序列分类

合集下载

2000年全国大学生数学建模竞赛A题 DNA序列分类

2000年全国大学生数学建模竞赛A题DNA序列分类2000年6月，人类基因组计划中DNA全序列草图完成，预计2001年可以完成精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。

这本大自然写成的“天书”是由4个字符A，T，C，G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号，除了这4个字符表示4种碱基以外，人们对它包含的“内容”知之甚少，难以读懂。

破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。

在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学（Bioinformatics）最重要的课题之一。

虽然人类对这部“天书”知之甚少，但也发现了DNA序列中的一些规律性和结构。

例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。

又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。

此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。

这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。

目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。

这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。

作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题：1）下面有20个已知类别的人工制造的序列（见下页），其中序列标号1—10 为A类，1 1-20为B类。

请从中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。

然后用你认为满意的方法，对另外20个未标明类别的人工序列（标号21—4 0）进行分类，把结果用序号（按从小到大的顺序）标明它们的类别（无法分类的不写入）：A类__________ ；B类_______________ 。

DNA序列分类与分析

DNA序列分类与分析DNA序列是基因组研究中最重要的数据，是生命科学研究不可或缺的基础。

DNA序列分类与分析技术的发展为研究生物进化、基础医学、人类遗传学等领域提供了有力的工具。

本文将从DNA 序列分类、序列比对、序列聚类和序列分析四个方面论述DNA序列分类与分析技术的基本概念、方法和应用。

一、DNA序列分类DNA序列分类是基因组研究中的重要分支，通常使用分类系统将物种分类成类群进行研究。

在DNA序列分类中，常用的指标是DNA序列的异构性，即在DNA序列长度、结构及单个核苷酸中的差异。

异构性与物种的共同祖先和进化历史密切相关。

DNA序列分类中，最常用的方法是构建系统发育树。

系统发育树是生物分类学中用于描述不同物种、亚种或种群之间演化关系的结构图。

它是基于DNA序列比对而建立的，通过序列的相似性和区别，揭示物种之间的亲缘关系。

传统上，系统发育树的构建是基于蛋白质或RNA序列，但由于DNA序列具有更高的信息含量和进化精度，现在大多数学者使用DNA序列构建系统发育树。

二、DNA序列比对DNA序列比对是确定DNA序列异构性的关键步骤，它包括两种基本类型的比对：序列比对和结构比对。

序列比对是将两条DNA序列首尾相连，并建立匹配方式，计算相似性和不同之处。

结构比对是在DNA序列中发现二级和三级结构的变化，这些变化可能引起不同函数特性的遗传标记。

DNA序列比对的目的是识别序列的同源和非同源性。

同源性表示两者基因组DNA是从相同物种或相同基因家族的不同成员中产生而来，而非同源性表示它们来自于不同的物种或基因家族。

比对常用的方法是计算DNA序列的氨基酸比例和碱基对比率。

这个过程称为比对分析，得到的结果称为比对分析结果。

三、DNA序列聚类DNA序列聚类是一种独特的DNA分析方法，通过相似性的度量，在群体或物种间创建基于聚类的关系。

聚类是一种用于不同对象的分组方法，目的是将相似的对象放在同一组中，并将不同的对象放在不同组中。

人类基因组dna的分类

人类基因组dna的分类人类基因组DNA的分类人类基因组DNA是指构成人类遗传信息的一系列DNA序列，它根据不同的功能和特征可以被分类。

这些分类对于我们了解人类基因组的结构和功能非常重要，有助于研究人类遗传性疾病的发生机制，以及人类进化和种群起源的研究。

本文将介绍人类基因组DNA的分类，并对每个分类进行简要说明。

1. 编码DNA编码DNA是指人类基因组中具有编码蛋白质的功能序列。

它包含了一系列基因，每个基因都含有一段能够编码特定蛋白质的DNA序列。

根据最新的研究，人类基因组中大约有20,000至25,000个编码基因。

这些编码基因决定了我们身体的结构和功能，包括生长发育、免疫系统、代谢过程等。

2. 非编码DNA非编码DNA是指在人类基因组中不具有编码蛋白质的功能序列。

尽管非编码DNA不参与蛋白质的编码，但它们在维持基因组的结构和功能上起着重要的作用。

非编码DNA可以分为多个子类，其中包括：- 转录调控区域：转录调控区域是位于编码基因附近的DNA序列，它们通过与转录因子结合来调控基因的转录过程。

转录调控区域对于基因的表达调控至关重要，决定了基因在不同组织和不同发育阶段的表达模式。

- 基因间区域：基因间区域是指编码基因之间的DNA序列。

虽然这些区域不含有编码蛋白质的序列，但研究发现它们可能包含一些重要的非编码RNA序列，这些RNA可能在基因调控和细胞过程中发挥作用。

- 重复序列：重复序列是指在基因组中重复出现的DNA序列。

它们可以分为两类：串联重复序列和散在重复序列。

串联重复序列是连续重复出现的DNA序列，如端粒重复序列和线粒体DNA重复序列。

散在重复序列是在基因组中分散出现的DNA序列，如转座子和微卫星序列。

3. 突变DNA突变DNA是指人类基因组中发生的突变，包括单核苷酸多态性（SNP）和结构变异。

SNP是指在基因组中单个核苷酸发生突变的现象，它是人类基因组中最常见的遗传变异形式。

结构变异是指基因组中较大片段的插入、缺失、倒位或重复等突变。

DNA序列分类

DNA 序列分类（2000年A 题）没有标准答案，以浙江大学（韩轶平）为主。

一、解决问题的思路学习样品1－20；判断样品 21—40。

根据学习样品1－20，提取A 、B 两类的特征，构造判断规则。

二、对于每一个DNA 序列X ，按照a c g t 在其中出现的频率分类a n ———— a 的百分含量 c n ———— c 的百分含量g n ———— g 的百分含量 t n ———— t 的百分含量则 1=+++t g c a n n n n 。

对于每一个DNA 序列都唯一对应一个三维向量),,(g c a n n n X =，称为特征向量。

按照样品的编号，各个样品的特征向量记为)40,2,1(, =i X i 。

对于每个已知的学习样品x ，都有A x ∈或B x ∈。

可以根据统计的方法找出A 、B 两类特征向量的总体特点或差异。

再对于未知类别的样品x ，根据它的特征向量X 与A 、B 两类特征向量的相似程度判别它所属的类型。

“物以类聚，人以群分”如何判断一颗恒星是否属于银河系假定：① 碱基的含量反映了DNA 序列的内容② 同类的DNA “聚集”在一起距离空间S 是一个集合，对于任何S y x ∈,都唯一确定一个实数),(y x ρ。

如果),(y x ρ满足以下三条公理，则称S 是一个距离空间，ρ 称为定义在S 上的距离。

① 非负性：0),(≥y x ρ；当且仅当y x =时0),(=y x ρ ② 对称性： ),(),(x y y x ρρ=③ 三角不等式：),(),(),(y z z x y x ρρρ+≤如，空间中两点),,(1111z y x P ),,(2222z y x P 之间的距离为2122122122112)()()(),(||z z y y x x P P P P -+-+-==ρ称为这两点间的欧氏距离。

又如向量⎪⎪⎭⎫ ⎝⎛=321a a a α，⎪⎪⎭⎫ ⎝⎛=321b b b β，它们的距离可以定义为)()(),(1βαβαβαρ-∙-=则2332222111)()()(),(a b a b a b -+-+-=βαρ，也称为α与β的欧氏距离，通常记为βα-可验证，对于任何三阶的正定矩阵V，)()(),(2βαβαβαρ--=T V 也是α与β的距离。

人类基因重复序列分类

人类基因重复序列分类人类基因重复序列是指在人类基因组中出现多次的DNA序列。

这些重复序列在基因组中的存在对于我们理解基因组结构和功能具有重要意义。

根据其特征和功能，人类基因重复序列可以分为三类，转座子、简单重复序列和线粒体DNA重复序列。

1. 转座子（Transposable Elements），转座子是一类能够在基因组中移动位置的DNA序列。

它们可以自主复制和插入到基因组的其他位置，造成基因组结构的变化。

转座子可以分为两大类，类似于病毒的转座子（Retrotransposons）和DNA转座子（DNA transposons）。

类似于病毒的转座子通过转录和反转录的方式复制自身，并插入到新的基因组位置。

DNA转座子则通过剪切和粘贴的方式移动位置。

2. 简单重复序列（Simple Repeats），简单重复序列是由短的DNA单元（通常为2-6个碱基）重复多次而形成的序列。

它们通常在基因组中存在多个拷贝，并且在不同个体之间具有变异性。

简单重复序列可以进一步细分为微卫星（Microsatellites）和小卫星（Minisatellites）。

微卫星通常由2-6个碱基的重复单元组成，而小卫星则由10-100个碱基的重复单元组成。

3. 线粒体DNA重复序列（Mitochondrial DNA Repeats），线粒体DNA重复序列是存在于线粒体基因组中的重复序列。

线粒体是细胞内的细胞器，负责能量产生。

线粒体基因组相对较小，且具有高度复制和突变率。

线粒体DNA重复序列在线粒体基因组中存在多个拷贝，可能对线粒体功能和遗传变异起到重要作用。

总结起来，人类基因重复序列可以分为转座子、简单重复序列和线粒体DNA重复序列三类。

转座子是能够移动位置的DNA序列，简单重复序列是由短的DNA单元重复多次而形成的序列，线粒体DNA重复序列存在于线粒体基因组中。

这些重复序列在人类基因组中的存在对于我们理解基因组结构和功能具有重要意义。

DNA序列的分类方法

DNA序列的分类方法摘要：本文通过对20个已知类别的DNA序列进行统计分析，由浅入深进行研究，建立了五种DNA序列分类的模型。

模型一利用单个碱基在序列中的含量不同，提出单碱基分类标准；模型二根据碱基c，g的百分比之和与碱基a，t的百分比之和的比值α=++进行分类；模型三根据各序列中氨基酸分布不同引入分类参数β得到C G A T()/()分类标准；模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系，对未知类别的DNA相对于不同类别集合的距离进行分类；模型五利用模糊聚类分析法对DNA进行分类．关键词：DNA 分类模糊聚类分析一、问题的提出及分析1953年，诺贝尔奖获得者沃森（Watson）和克里克（Crick）创造了DNA链的双螺旋模型，并提出遗传信息由DNA传递给蛋白质的基本法则——中心法则．DNA（脱氧核糖核酸）链是由四种不同的核苷酸（a, t, g, c）排列而成，在DNA中，每三个核苷酸顺序组成一种氨基酸，共64种排列方式对应着20种氨基酸（其中有些不同排列对应同一种氨基酸）．对于一个DNA来说，我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA 中的含量及排序方式．不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质．我们对DNA进行分类时，就应该考虑分布与排序所表示出来的特性，而将特性相近的DNA分为一类．在本文，我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性，对DNA进行分类．二、模型的基本假设与符号说明（一）基本假设（1）题中所列40个数据为40个不同DNA的40个片段，且包含着每个DNA 中我们所关注的主要信息；（2）182个DNA序列也为182个DNA中的片段，其中包含着以上40个数据中我们所关注的主要信息；（3）上面的所有DNA序列起始处都为一个完整氨基酸的起始处，每三个一组代表着不同氨基酸的排列．（二）符号说明a, t, g, c分别表示腺嘌呤，胸腺嘧啶，鸟嘌呤，胞嘧啶；,,,A T G C表示DNA片段中分别含a, t, g, c的百分比含量；a, t, g, c中任意3字符的组合为一个氨基酸（包括终止符）；()/()C G A Tα=++；β=111428++赖氨酸的百分比含量（第号）苯丙氨酸的百分比含量（第号）精氨酸的百分比含量（第号）甘氨酸的百分比含量（第号）．三、模型的建立与求解模型一单碱基分类法通过对A，B类DNA序列的细致观察，容易看出，A类的碱基g的个数较多，而B类中碱基t的个数明显多于其他碱基，于是我们对A，B 类序列进行统计得到表1．表1A类中碱基百分比含量 B类中碱基百分比含量上述表格中的数据表明，除第4个数据外，A类中的t的百分比都小于0.19，g的百分比大于0.36, 而B类除倒数第4个数据（第17个序列）中的t的百分比含量大于0.45，g的百分比含量小于0.146．由此得到分类标准为：若0.2636G≥，则该序列属于A类；若T≤且0.1802G<，则该序列属于B类．T≥且0.18020.2883对21～40序列进行统计得到表2．表2 21～40序列中碱基百分比含量根据序列21～40的数值结果（见表2），对序列21～40进行分类可得如下结果：A类：22，23，25，27，29，30，34，35，36，37，39（共11个）；B类：21，28，38，40（共4个）；评析：此模型易于辨别，对于某些特征较显著的DNA序列的分类较有效，但对DNA中深入的研究缺少足够的理论支持，于是我们对模型进行进一步改进．模型二：参变量α分类法α的值[]1不根据DNA基因技术理论，不同来源的DNA序列()()T=+GC+Aα，得到A类，B类以及序列21～40关于α的数同，引进参数()()T=+AGC+据（见表3、表4）．表3 A、B类关于α的数据表表4 序列21～40关于α的数据表通过以上数据的分析，我们发现A类中α的值在0.85～2.1429之间（除第4个数据外），B类中α的值在0.1702～0.6176之间，我们认为A类具有α＞0.85这一特征，即B类中含有碱基a、t的数量较c、g多，以α为标准对序列21～40进行分类可得A类：22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39（共11个）；B类：21 、24、 28、 38、40（共5个）；评析：根据来源不同的DNA序列中，碱基a、t的数量与c、g的数量比例的不同，制定一个较为合理的标准，来区分序列21～40，且具有实际的生物意义[]1和价值．模型三：氨基酸含量分类法我们尝试从氨基酸的分布着手，找出属于A 类（或B 类）DNA 的数据特征，就认为未知DNA 序列只有A 类（或B 类）的性质．我们对A 类和B 类DNA 序列统计出20种氨基酸（剔除休止符）的分布，考虑各DNA 序列长度的不同，对20种氨基酸的百分比的分布绘图，如图所示（含数据）：按生物学理论]1[对氨基酸进行分析，由分布图形可以断定，A 类中精氨酸（cga 、cgg 、cgc 、cgt 、aga 、agg ）和甘氨酸（ggc 、ggt 、gga 、ggg ）,B 类中赖氨酸（aaa 、aag ）和苯丙氨酸（ttt 、ttc ）为特征氨基酸，引入参数β=111428++赖氨酸的百分比含量（第号）苯丙氨酸的百分比含量（第号）精氨酸的百分比含量（第号）甘氨酸的百分比含量（第号）．并求得A 、B 类以及序列21～40关于β的数值（见表5、表6）．表5 A 、B 类关于β的数值表表6 序列21～40关于β的数值表容易得出分类标准为：当0≤≤β 1.4，则序列属于 A 类；当0≤≤β 1.4，则序列属于B 类；当1.45.1≤≤β时，则序列无法区分.根据上述分类标准，对序列21～40进行分类得: A 类:22,23,25,27,29,34,35,36,37,39(共10个) B 类:21,24,26,28,30,31,32,33,38,40(共10个) 模型四:中心距离分类法对任何的DNA 序列中的各种氨基酸的百分比含量,容易统计求得,不妨设氨基酸的向量1220(,,,)i i i i S s s s = ,则i S 为一个20维的向量,对于己知的DNA 序列,A,B 类氨基酸的含量百分比和均值分别为:1220(,,,),1,2,,10A A A Ai i i i S s s s i == ； 1220(,,,),1,2,,10B B B B i i i i S s s s i == ； 1011,1,2,,2010A Ajij i S S j ===∑ ；1011,1,2,,2010B Bjij i S S j ===∑ ．A 类DNA 序列氨基酸的空间重心为1220(,,,)A A A AS S S S = ；B 类DNA 序列氨基酸的空间重心为1220(,,,)B B B BS S S S = ．我们定义i S 到A,B 中序列的氨基酸向量重心的中心距离分别为:20()1,1,2,,10i A Aij j j dS S i ==-=∑ ．20()1,1,2,,10i B Bij j j dS S i ==-=∑ ．A 类中各序列的氨基酸向量到B 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i A B ABij j j dS S i ==-=∑ ；B 类中各序列的氨基酸向量到A 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i BA BAij j j dS S i ==-=∑ ．我们认为两个DNA 序列的氨基酸向量的距离越近,则这两个序列的氨基酸拟合程度越高,这样确定如下分类准则:（1）DNA 序列的氨基酸向量与A 的重心A S 的距离0.7733d <时，则序列属于A 类；（2）DNA 序列的氨基酸向量与B 的重心B S 的距离0.6660d <时，则序列属于B 类；（3）否则说明该DNA 序列无法归类.应该说明的是,由数值结果(见下表)知,这种准则不会将己知的A 类归于B 类,己知的B 类中的序列归于己知的A 类. 数据结果如下:根据序列21-40的如下的数据结果:用上述的分类准则对序列21-40进行分类得: A 类:27,34,35 B 类:28评析:模型四引入DNA 的氨基酸向量到己知类别(A 类,B 类)重心的距离,提出分类准则,对未知DNA 序列进行分类,具有很好的新意,这样就把一个DNA 序列的排列问题转化为一个空间向量的距离问题.若某DNA 中序列的氨基酸含量的百分比向量到己知的类别的重心距离小,则说明这个DNA 中的序列各种氨基酸含量的百分比与己知类别的氨基酸含量的百分比拟合程度较高,则归入己类别,具有很高的生物学参考价值.模型五：模糊聚类分析分类法如题目已知:DNA 序列1～20,按一定的方法分成A,B 二类,我们用模糊聚类分析方法建立A,B 二类合并后的20个序列的相似矩阵2020()ij R r ⨯=,其中20AB AB AB AB ijikjkij SSSSr --=∑然后通过平方法求其他传递闭包R '，我们取λ水平为0.73，这样将20个序列分为二类A '类和B '类，与原来的A 、B 两类唯一区别是A 类中序列4通过处理后划分到B '类中去，这种分类方法与原来已分好的A ，B 类所形成的差异，其原因可能有以下几种（1）原来的分类方法有误（2）序列4数据有误（3）数据信息特征的提炼不够当然我们用某些特殊方法使得分类结果与原来假定的分类吻合．如凡以gt 开头的序列划分为B 类，但这仅仅是一种数字游戏，看不出实际的意义，而且对后面的数据划分无从下手．为了避免A 中序列4的异类特性对A 类整体特征的影响，我们将它从 A 类中删除，只留下其余9个序列作为进一步分析的对象．我们将待分类的20个序列的集合定义为C ．C 中序列i C 与A 中（或B 中）每个元素)9,,1( =i a i 或)10,,1( =i b i 的相关系数的平均值定义为ia r （或ib r ）对于C 中任一元素i c ，如ib ia r r >，且6.0>ia r ，则认为i c 隶属于A 类：如ia ib r r >，且6.0>ib r ，则认为i c 隶属于B 类。

DNA 序列分类

DNA序列分类摘要本问题是一个“有人管理分类问题”。

首先分别列举出20个学习样本序列中1字符串、2字符串、3字符串出现的频率，构成含41个变量的基本特征集，接着用主成分分析法从中提取出4个特征。

然后用Fisher线性判别法进行分类，得出了所求20个人工制造序列及182个自然序列的分类结果如下：1）20个人工序列：22, 23，25，27，29，34，35，36，37为A类，其余为B类。

2）182个自然序列：1，4，8，10，27，29，32，41，43，48，54，63，70，72，75，76，81，86，90，92，102，110，116，119，126，131，144，150，157，159，160，161，162，163，164，165，166，169，170，182为B类，其余为A类。

最后通过检验证明所用的分类数学模型效率较高。

一.问题重述人类基因组计划中DNA全序列草图是由4个字符A，T，C，G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号。

虽然人类对它知之甚少，但也发现了其中的一些规律性和结构。

例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。

又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。

此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。

这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。

目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。

作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题：1）请从20个已知类别的人工制造的序列（其中序列标号1—10 为A类，11-20为B 类）中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。

11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评

2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。

2000年A题---DNA序列

作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题： 1)下面有20个已知类别的人工制造的序列(见下页)，其中序列标号1—10 为A类, 11-20为B类。请从中提取特征, 构造分类方法, 并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法, 对另外20个未标明类别的人工序列(标号21—40)进行分类, 把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类______________; B类_______________
请详细描述你的方法，给出计算程序。如果你部分地使用了现成的分类方法，也要将方法名称准确注明。这40个序列也放在如下地址的网页上，用数据文件Artmodel-data 标识，供下载. (网址略)
Hale Waihona Puke 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacg gaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgac cgcttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaatt attcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagc aaagga (3~10略) 11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatatttt ttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt 12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatg aatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa (13~20略)

dna分类的原理及应用

DNA分类的原理及应用原理DNA分类是通过对DNA序列进行分析和比较来确定物种和个体之间的差异和相似性的方法。

它基于DNA的遗传信息和进化过程，通过比较DNA序列的相似性程度来确定物种之间的亲缘关系和进化关系。

DNA分类的原理主要包括以下几个步骤：1.DNA提取：首先从待分类的样本中提取DNA，在实验室条件下进行处理和净化，以获取高质量的DNA样本。

2.PCR扩增：利用聚合酶链式反应（PCR）技术，选择特定的DNA片段进行扩增。

这些DNA片段通常是高度保守的基因区域，如线粒体DNA或核糖体DNA。

3.DNA测序：将扩增后的DNA片段进行测序，获取DNA序列信息。

目前，高通量测序技术的发展使得DNA测序变得更加快速和经济高效。

4.数据分析：将测序获得的DNA序列进行比对和分析。

常用的方法包括序列比对、相似性评估、系统发育分析等。

通过比较样本之间的DNA序列差异和相似性，可确定物种分类和进化关系。

应用DNA分类的应用非常广泛，涵盖了生物学、医学、农业、环境科学等多个领域。

以下是一些常见的应用场景：1.物种鉴定：DNA分类可用于识别和鉴定不同物种之间的差异和相似性。

对于复杂的生物样品或濒临灭绝的物种，DNA分类可以提供更精确和可靠的鉴定结果。

2.犯罪侦查：DNA分类在刑侦领域有重要的应用。

通过分析凶案现场的DNA样本与嫌疑人的DNA样本之间的关系，可以提供有力的证据来确定犯罪嫌疑人。

3.医学诊断： DNA分类可用于疾病的诊断和预测。

对于一些遗传性疾病，通过检测与疾病相关的基因突变，可以对患者进行早期诊断、预防和个体化治疗。

4.农业育种：DNA分类在农业生产中起着重要的作用。

通过对农作物和家畜的DNA序列比较和分析，可以筛选出高产、抗病或具有其他有益性状的品种，实现农业产量的提高和质量的保证。

5.生物多样性保护：DNA分类是研究生物多样性和保护濒危物种的重要工具。

通过对不同物种的DNA序列进行比较和分析，可以更准确地了解物种的分布、遗传多样性和进化关系，为生物多样性保护提供科学依据。

dna序列分类

dna序列分类1. 嘿，你知道吗？DNA 序列分类就像是给基因世界的生物们贴标签！比如说，不同的物种有着截然不同的 DNA 序列，这就好像每个人都有独特的指纹一样。

我们通过对这些序列进行分类，就能更好地了解各种生物的特性啊。

就像我们能清楚地区分猫咪和狗狗，不就是因为它们有着不同的特点嘛，这就是 DNA 序列分类的神奇之处呀！2. 哇塞，DNA 序列分类其实超有趣的！你想想看，这就如同给基因们排兵布阵！举个例子，当我们研究一种疾病的相关基因时，对 DNA 序列分类就能帮助我们找到关键所在。

这难道不像是在一大堆东西里精准地找出我们想要的那个宝贝吗？这就是它的重要和好玩呀！3. DNA 序列分类可不是随便玩玩的哟！它简直就是打开基因奥秘的钥匙啊！比如说在农业领域，通过对农作物的 DNA 序列分类，我们可以培育出更优良的品种呢。

这就好像给植物们来了一次大改造，让它们变得更强壮、更美味！这得多酷啊！4. 嘿呀，DNA 序列分类可真是个厉害的东西呢！就仿佛它是一个超级侦探，能解开基因的谜团。

像医学上通过对癌细胞和正常细胞的 DNA 序列分类对比，就能找到治疗疾病的线索啊。

这难道不是像在黑暗中找到了那一丝希望的亮光吗？太神奇啦！5. 哇哦，DNA 序列分类真的是不能小瞧呢！它就像是给基因世界划分地盘一样。

比如在生物学研究中，通过对不同物种的 DNA 序列分类，我们能了解到物种的进化历程。

是不是感觉就像目睹了一部超级大片呀，这就是DNA 序列分类的魅力所在啊！6. 哎呀，DNA 序列分类真的太重要啦！就像是给基因世界建立秩序一样。

举个很现实的例子，要是没有对病毒的 DNA 序列分类，我们怎么能快速有效地应对传染病呢？这就好像没有地图就会在丛林里迷路一样，明白了吧！我觉得 DNA 序列分类真的是一项伟大而神奇的工作呀！我们必须重视它！。

dna必须具备的三个基本序列 -回复

dna必须具备的三个基本序列-回复DNA必须具备的三个基本序列包括编码序列、启动子序列和终止子序列。

编码序列是DNA分子中具有遗传信息的部分，也被称为基因序列。

这些序列编码了生物体的蛋白质合成所需的氨基酸顺序。

DNA的编码序列由四种碱基，即腺嘌呤（A）、鸟嘌呤（G）、胸腺嘧啶（T）和胞嘧啶（C）组成。

这些碱基会以特定的顺序排列，形成密码，通过mRNA的转录将遗传信息传递到蛋白质合成的过程中。

编码序列是生物体遗传信息的核心，决定了生物体的性状和功能。

启动子序列位于基因的上游区域，是调控基因表达过程的关键序列。

启动子序列是由一系列特定的碱基序列组成，这些序列招募转录因子，从而启动基因的转录过程。

转录因子结合到启动子序列上后，调控蛋白质合成的相关酶会开始作用，将DNA转录为mRNA。

启动子序列的特异性由其中的序列元件所决定，这些元件与特定转录因子相互配合，以确保基因在正确的时间和地点进行转录。

启动子序列的存在保证了基因的正常表达，从而实现了生物体的正常发育和生理过程。

终止子序列位于基因的下游区域，它标志着基因转录的终止。

终止子序列由特定序列元件组成，当转录到这些序列时，mRNA合成过程会停止，并且新合成的RNA链会与DNA模板分离。

终止子序列的存在是基因转录过程的关键，通过与转录终止因子的相互作用使终止子序列起到信号传递和媒介的作用。

终止子序列的准确性可以保证RNA链的正确终止，防止错误的延伸和保证基因转录的准确性。

总结起来，DNA必须具备的三个基本序列是编码序列、启动子序列和终止子序列。

编码序列决定了生物体的遗传信息和蛋白质合成的氨基酸顺序。

启动子序列是基因表达的调控序列，能够招募转录因子启动基因的转录过程。

终止子序列标志着基因转录的终止，保证了转录的准确性和mRNA的正常合成。

这三个序列的存在和相互作用保证了基因的正常表达，维持了生物体的正常功能和发育。

DNA序列分类

DNA序列分类摘要本文以题目的有关数据为资料，对如何对DNA序列分类进行研究，针对各个问题，我们分别建立了欧氏距离分类模型、马氏距离分类模型、Fisher分类模型多个数学模型，经过严密的理论论证，精确的计算，很好的解决了DNA序列归类的问题。

针对问题一，我们首先根据的相关知识/理论,建立了欧式距离模型模型。

为了解决DNA序列分类，我们运用统计、最优化、特征值提取等数学方法,从已知样本序列中提炼出能较好代表两类特征的关键字符串,我们可以得到量化的分类标准，对所给的DNA序列进行分类。

在问题二中,我们同样采用了问题一中的三种模型，进行检验。

在求解的过程中，我们在数据的处理上不可避免的存在不少误差，我们通过探讨研究，给出了误差分析，分析了其中的误差产生的来源，尽量避免由于误差所造成求解的错误，进而得出了一个较好的方案。

我们还对模型进行改进，通过多个模型的比较，使得模型更加合理，更加切合实际。

从而较好的解决了对各种DNA序列的分类。

关键词：序列分类；特征分析；分类模型；最优分类一、问题的重述㈠背景知识1、DNA序列的概况从2000年6月，人类基因组计划中DNA全序列草图完成，预计2001年可以完成精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。

2、DNA序列排列原理DNA序列是由4个字符A，T，C，G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号，在DNA全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。

又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。

此外，利用统计的方法还发现序列的某些片段之间具有相关性。

㈡问题作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题：1）下面有20个已知类别的人工制造的序列（见下页），其中序列标号1—10 为A类，11-20为B类。

DNA 序列分类的数学模型

6期
吕金翅等 4 = >? 序列分类的数学模型
9 @
单层感知机是一个具有单层计算神经元的神经网络 ! 并由线形域值单元组成 "原始的它相当于单个神经元 "当它用于两类模式的分类时 ! 相 # $ % & $ ’ ( % ) *算法只有一个输出节点 ! 当于在高维样本空间中 ! 用一个超平面将两类样本分开 "+ 也已证明 ! 如果两类 " , ) $ * . / 0 ( ( 模式是线形可分的 1 指存在一个超平面将它们分开 2 则算法一定收敛 "感知器特别适用于 ! 简单的模式分类问题 ! 也可用于基于模式分类的学习控制和多模态控制中 " 修正方案 4 3 " 首先分析问题实质 ! 即采用一个单一神经元解决简单分类问题 4 将 5个输入矢量分为两类! 其中一部分为 6 另一部分为 7 图6 ! "最后确定网络结构 1 8 9 2 4
g第二类数学模型神经网络模型由于神经网络具有运用已知认识新信息解决新问题学习新方法预见新趋势创造新思维的能力所以我们将神经网络处理问题的方法介入进来处理模式分类的问题quot
第! "卷第 "期 # $ $ "年 "月
数学的实践与认识 %&’ () %&’ * + ,* -. / &+ ’ * + )&-0 ’ () 1/ 2
34 5 6 ! " -4 6 " 8 9 : ;# $ $ "
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7

DNA序列分类模型

DNA序列分类模型重庆市数学建模竞赛一等奖王勇, 莫志锋, 秦力顼(1999级自动化学院)[摘要]本文根据题中所给两个已知类别的DNA序列进行结构特征分析，从中提取信息和构造分类模型，对未知类别的DNA序列进行分类。

我们构造了三个分类模型，它们分别是：特征密码子概率分布判别模型、图论最小生成树模型和向量空间直观判别模型。

后两种分类结果几乎一致，判别率在90%左右，误判率控制在（0.05-0.1）范围。

问题一结果为：模型一的结果：A类有7个：22，23，27，29，34，35，37；B类有10个：21，24，26，28，30，31，32，33，38，40；不能判断的有3个：25，36，39；模型三的结果：A类有10种：22，23，25，27，29，34，35，36，37，39；B类有10种：21，24，26，28，30，31，32，33，38，40；问题二结果为：模型二的结果：A类有108个，B类有74个。

具体情况见文中答案。

模型三的结果：A类有120个，B类有62个。

具体情况见文中答案。

我们还对三种分类方法进行了类比，认为模型二、三方法新颖独特，结果稳定，它们是一种较好的分类方法。

并且对各种计算结果进行误差分析和检验等工作。

一、问题的重述本问题为一个DNA序列分类问题。

假定已知两组人工已分类的DNA序列（20个已知类别的人工制造的序列），其中序列标号1—10 为A类，11-20为B类。

要求我们从已经分类了的DNA序列片段中提取共同特征构造分类方法，并评价所用分类方法的好坏，从而构造或选择一种较好的分类方法。

测试对象是20个未标明类别的人工序列（标号21—40）和182个自然DNA序列。

二、模型的假设及符号说明1、名词解释：碱基：在生物学中，用A，T，C，G四个字符代表组成DNA序列的四种碱基；密码子：在遗传学中每三个碱基的组合被称为一个密码子，可以编码一个氨基酸，共有64个，还可以由密码子组成20个氨基酸。

基于深度学习的DNA序列分析与分类

基于深度学习的DNA序列分析与分类基于深度学习的DNA序列分析与分类DNA序列是生物学研究中至关重要的一种数据形式。

通过对DNA序列的分析和分类，可以揭示生物之间的进化关系、基因功能以及遗传疾病的发生机制等。

而深度学习作为一种强大的机器学习方法，已经在许多领域展现出了非凡的能力。

本文将探讨基于深度学习的DNA序列分析与分类方法，以及其在生物学研究中的应用。

首先，深度学习的核心思想是通过多层神经网络模型来学习数据的特征表示。

在DNA序列分析中，深度学习可以通过学习DNA序列中的局部特征和全局特征，实现对DNA序列的分类和预测。

在DNA序列分析中，最常见的任务之一是基因识别。

基因识别是指从DNA序列中确定编码蛋白质的基因区域。

深度学习可以通过训练一个嵌套的卷积神经网络（CNN）模型，从DNA序列中提取特征，并判断每个碱基是否属于基因区域。

通过这种方法，深度学习可以有效地识别出基因区域，进而推断基因的功能和表达水平。

另一个重要的DNA序列分析任务是DNA突变的预测。

DNA突变是指DNA序列中的碱基发生变异，可能导致遗传疾病和肿瘤的发生。

深度学习可以通过学习DNA序列中的模式和规律，预测潜在的DNA突变。

例如，可以使用循环神经网络（RNN）模型来建模DNA序列中的时序信息，进而预测基因突变的发生概率。

这种方法可以帮助研究人员更好地理解DNA突变的机制，并为疾病的早期预测和诊断提供有力支持。

此外，深度学习还可以用于DNA序列的分类和聚类分析。

通过训练一个深度神经网络模型，可以将不同类型的DNA序列进行分类，从而揭示不同物种之间的进化关系和遗传变异。

此外，通过将DNA序列映射到一个低维空间，可以使用深度学习模型进行DNA序列的聚类分析，从而发现隐藏在大规模DNA序列数据中的模式和共同特征。

综上所述，基于深度学习的DNA序列分析与分类方法在生物学研究中具有广泛的应用前景。

通过深度学习的强大特征学习能力，可以从DNA序列中挖掘出更多的信息和知识，为生物学研究提供更精确、高效的工具和方法。

DNA序列分类模型

DNA序列分类模型
模型假设
1．假设所讨论的DNA序列都是从DNA序列中任意截取的一部分；
2．DNA，RNA在传递信息及整个蛋白质合成过程中，遗传密码的传递严格遵循中心法则，不考虑基因变异情况，也不考虑因其他任何因素而导致DNA，RNA的损坏问题；
3.根据碱基互补配对原则，将与RNA上密码子对应的DNA伤相邻的3
个剪辑成为DNA上的密码子；
4.假设任一给定序列中碱基A、G、T、C的百分含量已知，na、ng、nt、
nc分别表示任一给定序列中碱基A、G、T、C的百分含量
问题分析
我们首先要提取出一个序列的特征，给出它的数学表示，最后选择选择基于这种数学表示的分类方法。

对于任何一个DNA序列，我们认为，反应该序列特征的方面为碱基的含量，反映了该序列的内容。

在建立基于碱基含量特征分类模型，确定最终DNA序列的分类。

模型建立
首先，我们考虑采用序列中的A,G,C,T的含量百分比作为该序列的特征。

将序列中的A,G,T,C的含量百分比分别记为na，ng，nt，nc，则得到一组表征该序列特征的四维向量（na，ng，nt，nc），由于na，ng，nt，nc之间具有线性相关（na+ng+nt+nc=1），所以我们采用简化的三维向量（na，nt，ng）来进行计算。

为了有效地进行分类识别，首先要根据被识别的对象产生一组基本特征，并对基本特征进行变换，得到最能反映分类本质的特征。

在列举了尽可能完备的特征参数集之后，借助数学的方法，使特征参数的数目减到最小。

我们通过研究4个字符A,T,C,G在DNA序列中的排列、组合特性，主要是研究字符和字符串的排列在序列中出现的频率，从中提取DNA序列的结构特征参数。

DNA序列分类

实验29 DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法，掌握利用FCM命令进行DNA 分类的方法，学会做出分类图形直接给出分类结果的MATLAB编程。

知识扩展DNA序列分类DNA(Deoxyribonucleic acid)，中文译名为脱氧核苷酸，是染色体的主要化学成分，同时也是基因组成的，有时被称为“遗传微粒”。

DNA是一种分子，可组成遗传指令，以引导生物发育与生命机能运作。

主要功能是长期性的资讯储存，可比喻为“蓝图”或“食谱”。

DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。

其中两条DNA链中对应的碱基A-T以双键形式连接，C-G以三键形式连接，糖-磷酸-糖形成的主链在螺旋外侧，配对碱基在螺旋内侧。

FCM算法中样本点隶属于某一类的程度是用隶属度来反映的，不同的样本点以不同的隶属度属于每一类；但是算法中的概率约束∑uij=1使得样本的典型性反映不出来，不适用于有噪音，样本分布不均衡，存在两个或者两个以上样本分别距两个类的距离相等的样本等等。

欧氏距离（ Euclidean distance）也称欧几里得距离，它是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。

公式在二维和三维空间中的欧式距离的就是两点之间的距离，二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间，欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下：若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法，掌握利用FCM命令进行DNA 分类的方法，学会做出分类图形直接给出分类结果的MATLAB编程。

知识扩展DNA序列分类DNA(Deoxyribonucleic acid)，中文译名为脱氧核苷酸，是染色体的主要化学成分，同时也是基因组成的，有时被称为“遗传微粒”。

DNA是一种分子，可组成遗传指令，以引导生物发育与生命机能运作。

主要功能是长期性的资讯储存，可比喻为“蓝图”或“食谱”。

DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。

其中两条DNA链中对应的碱基A-T以双键形式连接，C-G以三键形式连接，糖-磷酸-糖形成的主链在螺旋外侧，配对碱基在螺旋内侧。

欧氏距离（ Euclidean distance）也称欧几里得距离，它是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。

欧氏距离看作信号的相似程度。

距离越近1.问题的提出2000年6月，人类基因组计划中DNA全序列草图完成，预计2001以完精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗的全部信息的“天书”，这本大自然写成的“天书”，是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号，除了这4种碱基以外，人们对它包含的“内容”知之甚少，难以读懂，破译这部世界上最巨量信息的“天书”是21实际最重要的任务之一。

在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学最重要的课题之一。

2．问题的分析这是一个比较典型的分类问题，为了表述的严格和方便，我们用数学的方法来重述这个问题。

在这里问题的关键就是要从已知的20个字母序列中提取用于分类的特征。

知道了这些特征，我们就可以比较容易的，对那些未标明类型的序列进行分类，下面我们将首先对用于分类的标准问题进行必要的讨论。

3．分类的方法为了在众多可能的分类中寻求合理的分类结果，为此，就要确定合理的聚类准则。

定义目标函数为202211(,)()()mik ik k i J U V u d ===∑∑显然，J(U,V)表示了各类中样本到聚类中心的加权距离平方和，权重是样本XK 对第i 类隶度的m 次方，聚类准则取为求J(U,V)的极小值(min){J(U,V)}。

其中，U=[u ik ]为模糊分类矩阵，i=1，2；k=1，2，···，20；且满足0≤ u ik ≤1和若u ik =max{u ik }>0.5，则xk ∈第j 类。

在MATLAB 中，我们只要直接调用如下程序即可：[Center,U,obj_fcm]=fcm(data,cluster_n) data:要聚类的数据函数，每一行为一个样本 cluster_n:聚类数（大于1）Center:最终的聚类中心矩阵，其每一行为聚类中心的坐标值 U:最终的模糊分区矩阵obj_fcm:在迭代过程中的目标函数值4. 对DNA 序列组合分类的分析（1）提取DNA 序列特征建立两类序列的特征向量（2）确定两类序列的中心（3）分类方法（4）回代误判率（5）未知的20个序列判别结果5.提取DNA 序列特征建立两类序列的特征向量为了对DNA 序列进行分类，我们首先对已知的两类DNA 序列进行研究，从中找到两类序列的特征。

由于在不用于编码蛋白质的序列片段中，A 和T 的含量特别多些，于是我们利用MATLAB 软件，通过编程计算出A ，B 两类序列中4中碱基对含量的百分比，对每个序列构造四维向量 x k =( x k1，x k2，x k3，x k4 ) (k=1,2 (20)其中， x k1，x k2，x k3，x k4分别表示第k 个序列所含有的碱基对A,T,C,G 含量的百分比，利用MATLAB 软件，我们得到A,B 两类序列的特征矩阵A=(x kj )20×46. 确定两类序列的中心∑∑2202011()/()m m iikkikk k v ux u===(1,2;1)i m =<<∞2111/()m ikik j jkd u d-==∑ik k id x v =-为第k 个序列到第i 类中心的欧式距离，实际计算时要对取定的初始值进行迭代计算直至max ｛|u ik t -u ik t-1|｝<ɛ ，ɛ为事先指定的精度。

回代误判率用欧氏距离作为判据虽然简洁直观，但是存在着明显的缺陷：从概率统计的角度来看，用欧氏距离描述随机点之间的距离并不是很好。

因此对待分类样本是随机样本，具有一定的统计性质时，这个模型并不是很能很好的描述两个随机点之间的接近程度。

我们对于已知的A ，B 两类序列利用上述方宣传法进行判别，结果如3.15表所示B0.93450.065520B 0.95670.043319B 0.99550.004518B 0.50150.498517B 0.96810.031916B 0.93300.067015B 0.99780.002214B 0.98850.011513B 0.96820.031812B 0.97690.023111A 0.05800.942010A 0.02620.97389A 0.01580.98428A 0.08320.91687A 0.03770.96236A 0.02270.97735B 0.56410.43564A 0.03230.96773A 0.00430.99572A 0.00310.99691聚类结果属于B 类的隶属值属于A 类的隶属值序号未知的20个序列判别结果利用模糊均值聚类方法，对于未知的20个序列进行判别，结果如表3.16B0.95120.048840A 0.35560.644439B 0.95720.042838A 0.00810.991937A 0.15080.849236A 0.02140.978635A 0.04240.957634B 0.88630.113733B 0.60130.398732B 0.94560.054431A 0.41920.580830A 0.16640.833629B 0.92590.074128A 0.04370.956327B 0.98760.012426A 0.02140.978625B 0.97990.020124A 0.07700.923023A 0.20280.797222B 0.95210.047921聚类结果属于B 类的隶属值属于A 类的隶属值序号MATLAB 编程(1) 提取特征建立特征矩阵A1='aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaa ggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg';A2='cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaac gggacaaggaaggcggctggaacaaccggacggtggcagcaaagga';A3='gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacg gacggaacggaggaaggagggcggcaatcggtacggaggcggcgga';A4='atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgtttt ttaaataaaatttgtattattatggtatcataaaaaaaggttgcga';A5='cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccg tttcggcggaaaggcggagggctggcaggaggctcattacggggag';A6='atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatat ttcggaagtggatattaggagggcggaataaaggaacggcggcaca';A7='atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcgga aatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg';A8='atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttc gacaaggaggcggaccataggaggcggattaggaacggttatgagg';A9='atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggc gaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg';A10='tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatc caggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg';A11='gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttagg taagtaatccaacgtttttattactttttaaaattaaatatttatt';A12='gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaattt ggttttttttaaggtagttatttaattatcgttaaggaaagttaaa';A13='gtattacaggcagaccttatttaggttattattattatttggatttttttttttttttttttta agttaaccgaattattttctttaaagacgttacttaatgtcaatgc';A14='gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaattttttttt cggagttcatattctaatctgtctttattaaatcttagagatatta';A15='gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatt tttttttttttttttttttttttttttttaaaatttataaatttaa';A16='gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctg gatcgataatgtaaacttattgaatctatagaattacattattgat';A17='gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccc tcagtaaaatcaatccctaaacc~ttaaaaaacgg~ggcctat~cc';A18='gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttt tttgtcctatagagaaattacttacaaaa~gttattttacatactt';A19='gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttat tcttactttttttcttctttatataggatctcatttaatatcttaa';A20='gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatt taaacttttgtttctttaaggattttttttacttatc~t~tgttat';A21='tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcg atccgtaccgtaatttagcttagatttggatttaaaggatttagattga';A22='tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtacgtaccgtacgctaccgtt accggattccggaaagccgattaaggaccgatcgaaaggg';A23='cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtt tagcttcccgggatttagggcccggatggctggga~cc';A24='tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagca ttgttctttattgggacccaagttcgacttttacgattta~ttttgaccgt';A25='gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtatt aggcaaaagctgacgggcaattgcaatttaggcttaggcca';A26='gatttactttagcatttttagctgacgttagcaagcattagctttag~caatttcgcatttgcc agtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac';A27='ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaa tgccaaaggacgctggtttagccagtccgttaaggcttag';A28='tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgactt aaaatttagacgttagggcttatcagttatggattaatttagcttattttcga';A29='ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccgg ccatttcggtttagggagggccgggacgcgttagggc';A30='cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgt tagctgacgctgaacgctaaacagtattagctgatgactcgta';A31='ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatg ctagctagcaatttattatccgtattaggcttaccgtaggttta~cgt';A32='gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggat taaattcgttgtcagtcgctcttgggtttagtcattcccaaaagg';A33='cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccct gacgtttagctaggaatttatgctgacgtagcgatcgactttagcac';A34='cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggcttta gcgtaggctgacgctaggcttaggttggaacccggaaa';A35='gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaca caggataaaagttaagggaccggtaagtcgcggtagcc';A36='ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtc gcaattcgcaaaagtccccagctttagccccagagtcgacg';A37='gggatgctgacgctggttagctttaggcttagcgtagctt tagggccccagtctgcaggaaatgcccaaaggaggccaccgggtagatgccasagtgcaccgt';A38='aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgt gttacgatttacgtataatttgaccttattttggacactttagtttgggttac';A39='ttagggccaagtccccaggcaaggaattctgatccaagtccaatcacctacagtccaagtcacc gtttgcagctaccgtttaccgtacgttgcaagtcaaatccat';A40='ccattclgggtttatttacctctttattttttcccgagaccttaggtttaccgtactttttaac ggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt';s=['A'];x1=zeros(40,4);for i=1:40n=eval([s(1,1),num2str(i)]);[u,y]=size(n);for j=1:y;m=n(:,j);switch mcase 'a';x1(i,1)=x1(i,1)+1;case 't';x1(i,2)=x1(i,2)+1;case 'c';x1(i,3)=x1(i,3)+1;case 'g';x1(i,4)=x1(i,4)+1;endendendb=sum(x1');b1=b';c=[b1,b1,b1,b1];y=x1./c运行结果：y =0.2973 0.1351 0.1712 0.39640.2703 0.1532 0.1622 0.41440.2703 0.0631 0.2162 0.4505 0.4234 0.2883 0.1081 0.1802 0.2342 0.1081 0.2342 0.4234 0.3514 0.1261 0.1261 0.3964 0.3514 0.1892 0.0991 0.3604 0.2793 0.1892 0.1622 0.3694 0.2072 0.1532 0.2072 0.4324 0.1818 0.1364 0.2727 0.4091 0.3545 0.5000 0.0455 0.1000 0.3273 0.5000 0.0273 0.1455 0.2545 0.5182 0.1000 0.1273 0.3000 0.5000 0.0818 0.1182 0.2909 0.6455 0 0.0636 0.3636 0.4636 0.0818 0.0909 0.3645 0.2710 0.2243 0.1402 0.2936 0.5046 0.1101 0.0917 0.2182 0.5636 0.1455 0.0727 0.2037 0.5741 0.1574 0.0648 0.2743 0.3628 0.1947 0.1681 0.2885 0.2212 0.2404 0.2500 0.1782 0.1881 0.2475 0.3861 0.2105 0.4123 0.1930 0.1842 0.2476 0.2190 0.2286 0.3048 0.2212 0.3894 0.2035 0.1858 0.2308 0.2308 0.2019 0.3365 0.2564 0.4444 0.1453 0.1538 0.1485 0.1881 0.2178 0.4455 0.2897 0.2523 0.2430 0.2150 0.2432 0.3604 0.1802 0.2162 0.1743 0.3303 0.2294 0.2661 0.2703 0.3333 0.1892 0.2072 0.2353 0.1667 0.2353 0.3627 0.2451 0.2059 0.2059 0.3431 0.2286 0.2095 0.3048 0.2571 0.2157 0.2059 0.2451 0.3333 0.2222 0.4359 0.1709 0.1709 0.2736 0.2358 0.3019 0.1887 0.1897 0.4310 0.2155 0.1638(2) 回代判别Y=y(1:20,:);[center,U,obj_fcn]=fcm(Y,2);maxU=max(U);index1=find(U(1,:)==maxU);index2=find(U(2,:)==maxU);line(Y(index1,1),Y(index1,2),'linestyle','none','marker','o','color','g');line(Y(index2,1),Y(index2,2),'linestyle','none','marker','*','color', 'r')运行结果：小于0.5的为A类,大于0.5的为B类.(3) 未知的20个序列判别Y=y(21:40,:);[center,U1,obj_fcn]=fcm(Y,2);maxU1=max(U1);index1=find(U1(1,:)==maxU1);index2=find(U1(2,:)==maxU1);line(Y(index1,1),Y(index1,2),'linestyle','none','marker','o','color', 'g');line(Y(index2,1),Y(index2,2),'linestyle','none','marker','*','color', 'r');hold onplot(center(1,1),center(1,2),'kpentagram','markersize',15,'LineWidth',2);plot(center(2,1),center(2,2),'ksquare','markersize',15,'LineWidth',2);box on,title('模糊C均值聚类');r11=0;r12=0t=U1(1,:)-U1(2,:);for i=1:20,if t(i)<0r11=r11+1;t1(i)=i;else if t(i)>0r12=r12+1;t2(i)=i;endendendsprintf('属于A类的DNA序列序号')t2sprintf('属于B类的DNA序列序号')t1运行结果：属于A类的DNA序列序号t2 =Columns 1 through 150 0 3 0 5 0 7 0 9 0 0 0 0 14 15Columns 16 through 190 17 0 19ans =属于B类的DNA序列序号t1 =Columns 1 through 151 2 0 4 0 6 0 8 0 10 11 12 13 0 0Columns 16 through 2016 0 18 0 20未知的20个序列聚类图（×表示A类，表示B类，，表示两类中心）。