DNA序列的分类与判别分析
DNA序列分析与结构比对
DNA序列分析与结构比对DNA(脱氧核糖核酸)是构成遗传物质的分子,它指导所有生命的形成和发展。
DNA序列是由不同的碱基对组成的排列顺序,而这些碱基对的不同排列顺序,决定了不同的生物体的基因特征。
因此,DNA序列的分析和比对,对于理解生命的机理、诊断和治疗疾病都具有非常重要的意义。
一、DNA序列的分析DNA序列的分析是指对DNA序列进行测序、注释、分类、比对等过程。
DNA测序是一项基础的实验前提,通过它我们可以获取到DNA序列的数据。
DNA注释是将测序数据进行翻译、比对和分类,并以一定的方式存储。
在分类的过程中,我们可以将DNA序列根据不同的类型进行分类,如线粒体DNA、叶绿体DNA和核DNA等等。
我们可以通过对DNA序列的分析,来研究基因,从而探索生命的本质和各种生物体的演化过程。
二、DNA序列的比对DNA序列的比对是将两个DNA序列进行对比,确定其相同和不同之处的过程。
DNA序列的比对可以用于基因检测、病理诊断、动物进化研究等领域。
在DNA序列的比对当中,比对技术是非常核心的一部分。
目前,主要有以下两种DNA序列比对的算法:1、全局比对:通过比对整个DNA序列来确定差异。
全局比对的优点在于比对的结果非常准确,但是由于比对的长度过长,所以计算速度相对较慢。
2、局部比对:主要是针对两个DNA序列中长度较短的区域,进行匹配和比对。
局部比对的优点在于比对速度非常快,但是比对的结果可能仅限于某一段序列,因此需要进行针对性的分析。
三、DNA序列的结构比对DNA序列的结构比对指的是查找DNA序列中的一些结构特征,例如基础对序列、序列的二级结构以及序列的三级结构等。
DNA序列的结构比对可以通过计算序列的折叠情况、组合情况来求出序列的结构差异。
通过比对不同的序列结构,我们可以获得更精确的结构信息,这些信息在疾病预测、治疗和药物设计上具有重要的价值。
在DNA序列的分析和比对中,遗传多样性是非常重要的一部分。
DNA序列的遗传多样性涵盖了种类、强度、频率等多个方面。
法医学 法医DNA分型
二、DNA水平的遗传标记
1、 DNA的分子结构
DNA的二级结构---双螺旋结构
1953年, Watson 和Crick 提出了DNA 双螺旋结构模式。
变性:双链间氢键的断裂,形成两条多核苷酸单链的过程
引起 DNA 变性的因素主要有高温、强酸强碱、 有机溶剂等。 DNA变性后,性质发生改变。
法医学上常用的序列多态性分析技术
?PCR-ASO 技术——HLA-DQAl 基因座 ?PCR-RFLP 技术——ABO基因、 mtDNA ?DNA序列分析——mtDNA 分型
PCR-RFLP 技术
利用两个片段之间的序列差异,而且这 种差异刚好构成一个限制性核酸内切酶识别 位点,或使原有的限制酶识别位点丢失或识 别位点移动了位置,选择合适的限制酶切割 PCR 产物,从长度不一的DNA酶切片段,可 以判断等位基因及基因型。
操作简单,经济实用。因为片段长度范围 选择受限制,能够同时扩增的基因座个数有 限。
荧光标记的自动检测系统
常采用复合扩增即在同一反应管中同时 扩增多个STR 基因座,自动化的激光荧光检 测系统进行PCR 产物分型
原理:荧光染料标记在一条PCR 引物的5′ 端,在PCR 扩增时,PCR 产物带上荧光标记。 电泳时,标记有荧光染料的 DNA片段由激光 诱发荧光而被检测。
DNA纹印:
RFLP 分析杂交时使用 单基因座探针,高度 严格杂交条件下,仅 与一个小卫星基因座 等位片段杂交,形成 单基因座 RFLP 图谱。
DNA指纹:
RFLP 分 析 杂 交 时 , 使用多基因座探针, 不严格杂交条件下, 与多个小卫星基因 座等位片段杂交, 形成多基因座 RFLP 图谱。
5-12
DNA序列分类
DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。
知识扩展DNA序列分类DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。
DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。
主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。
DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。
其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。
FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。
欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。
11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评
2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
DNA鉴定方法
DNA鉴定方法DNA鉴定方法DNA鉴定是一种通过对DNA序列的比较分析,确定个体之间的亲缘关系或确认身份的方法。
DNA鉴定在刑侦、亲子鉴定、遗传病诊断等领域有广泛应用。
本文将介绍DNA鉴定的基本原理和常用方法。
DNA鉴定的原理在于人类DNA的独特性和遗传性。
DNA是一种包含遗传信息的分子,由四种碱基(腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶)组成,它们按照一定的规则排列成两条螺旋状的链。
每个人的DNA序列都是独一无二的,除了一些双胞胎之外。
鉴定方法主要利用DNA的这种独特性,通过比较个体的DNA序列,确定是否具有亲缘关系或是否为同一人。
常用的DNA鉴定方法包括:1. RFLP(限制性片段长度多态性)分析:RFLP分析是DNA鉴定的经典方法之一。
它通过利用限制性内切酶将DNA切割成多个不同长度的片段,然后使用凝胶电泳将这些片段进行分离,并利用射入探针的杂交方法进行检测。
不同个体之间的DNA序列差异会导致不同的片段长度,从而可以通过比较片段长度来确定个体之间的亲缘关系。
2. PCR(聚合酶链式反应)分析:PCR是一种快速有效的DNA复制技术,可以从微量DNA中扩增出足够数量的DNA片段用于分析。
PCR分析常用于亲子鉴定、法医学和遗传病诊断。
PCR分析通常配合其他技术如序列分析、飞行时间质谱和DNA芯片等来进行。
3. STR(短串联重复)分析:STR分析是目前最常用的DNA 鉴定方法之一。
STR序列是由2-6个碱基重复单元组成的,不同个体之间的STR序列重复单元数目存在差异。
STR分析通过PCR扩增DNA片段,然后利用凝胶电泳分离,并通过比较STR重复单元数目来鉴定个体之间的亲缘关系或身份。
DNA鉴定的过程包括取样、提取DNA、扩增DNA片段、分离和检测。
取样可以采用血液、口腔拭子、毛发等样品。
提取DNA需要将样品中的DNA从细胞核和细胞器中分离出来。
DNA扩增通过PCR技术,可以在短时间内从微量DNA样品中复制出大量DNA片段。
第9章_DNA序列分析
第9章_DNA序列分析DNA序列分析是指对DNA序列进行系统性研究和分析的过程。
DNA序列是生物体内的遗传信息的载体,对于了解基因功能、生物演化、疾病发生机制等具有重要意义。
本章将介绍DNA序列分析的方法和应用。
DNA序列分析的方法包括序列比对、基因预测、遗传变异检测和进化分析等。
序列比对是将已知DNA序列与未知序列进行对比,寻找相似之处,从而推断未知序列的功能。
常用的序列比对工具有BLAST、Bowtie等。
基因预测是利用生物信息学方法预测未知DNA序列中的基因位置和功能。
常用的基因预测工具有GeneMark、Glimmer等。
遗传变异检测是通过比较不同个体之间的DNA序列差异,寻找与疾病相关的遗传变异。
进化分析是利用DNA序列比较不同物种之间的遗传差异,推断它们的亲缘关系和演化过程。
常用的进化分析方法有多序列比对、系统发育树构建等。
DNA序列分析在生物学研究和应用领域具有广泛的应用。
在基础研究方面,DNA序列分析可以帮助研究人员了解基因的功能和调控机制。
通过比对不同物种之间的DNA序列,可以揭示物种的进化关系和演化过程。
在医学研究方面,DNA序列分析可以用于疾病的诊断和预测。
通过检测DNA序列中的遗传变异,可以发现与疾病相关的基因突变,并为疾病的治疗和预防提供理论基础。
在农业研究方面,DNA序列分析可以应用于作物和畜禽的遗传改良。
通过分析作物和畜禽的DNA序列,可以挖掘有益基因和导育改良品种,提高农作物和畜禽的产量和品质。
随着高通量测序技术的发展,DNA序列分析在研究领域的应用也得到了大幅度的提升。
高通量测序技术可以快速、准确地获取大量的DNA序列信息,为DNA序列分析提供了更为丰富的数据。
同时,也为DNA序列分析提供了更多的挑战,如序列比对的速度和精度、大规模数据的储存和分析等。
因此,进一步研发和改良DNA序列分析的方法和工具,提高分析效率和准确性,将是今后的研究重点。
综上所述,DNA序列分析是一项重要的生物信息学研究方法,具有广泛的应用前景。
遗传学中的DNA序列解析
遗传学中的DNA序列解析DNA序列是生物学的基础,是生命的编码手段。
对于生物学研究者来说,解析DNA序列是相当重要的一项工作,它能够帮助我们深刻地了解生物的进化历程、物种的遗传信息以及基因的功能。
遗传学中的DNA序列解析,为我们提供了深入认识生物奥秘的工具。
本文将从DNA序列的本质和作用入手,分析遗传学中的DNA序列解析,为读者带来全新的生物学认知。
DNA序列的本质和作用DNA分子是生命存在的物质基础,它是由核苷酸链组成的双螺旋结构。
在这个双螺旋结构中,每条链上都附着着四种碱基:腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)。
这些碱基按照一定的规则排列起来,便形成了我们所称的DNA序列。
其中,A和T以及G和C之间通过氢键连接,使得两条链相互联系,从而构建了DNA的结构。
通过对DNA序列进行解析,我们可以探究生命的起源、物种的进化和个体的遗传特征,从而对生物学有着重要的意义。
遗传学中的DNA序列解析DNA的功能多种多样,不仅决定着物种的基本形态结构,还影响着遗传信息的传递和表达。
因此,对于遗传学研究而言,DNA序列解析是一个非常重要的过程。
从一般意义上讲,DNA序列解析是指将DNA测序的结果进行识别和翻译的过程。
而从实际操作上看,DNA序列解析又可分为以下几个部分。
1. 基因组测序基因组测序是指对物种基因组的总体DNA序列进行测定,它能够揭示出物种的基因组结构和组成。
随着测序技术的不断发展,目前已经可以对复杂物种的基因组进行高通量测序,大大提高了遗传学的解析效率和深度。
2. 基因的定位基因的定位是指找出物种基因组中某一特定基因的位置信息。
这个过程可以借助于众所周知的基因芯片技术,通过芯片上面的人体基因序列信息来识别基因位置。
例如,我们可以通过基因芯片检测来判定一个人是否携带某种基因突变,进而预测个体是否患有疾病。
3. 基因的注释和解析基因的注释和解析是指理解基因序列中的具体信息,从而得出基因表达和功能特性。
最新A题DNA序列的类别(南昌大学全国一等奖)
用判别分析的方法判定DNA序列的类别摘要判别分析法是多元统计分析中的重要内容之一。
近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。
本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。
通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(<1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。
关键词:DNA序列、Fisher判别法、判别函数、错判率。
一、问题提出1.背景人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。
对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
2.问题有20个已知类别的人工序列:A类,B类。
1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。
2..对另给出的182个自然序列进行分类。
二.问题的分析本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:1)来源于已知样本。
2)具有给予未知类别的DNA序列分类的功能。
3)能较好的接受检验样本的检验。
全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。
DNA重复序列的识别和分析研究
DNA重复序列的识别和分析研究DNA是由核酸组成的双螺旋结构,它包含了遗传信息,是细胞和生命的基础。
然而,DNA并非完全由单一的基本单位组成,而是由多种序列组成的复合体。
其中,DNA重复序列是一种重要的DNA组成部分,这些序列增加了基因组的大小,并且在不同物种中表现出了高度的多样性。
DNA重复序列的识别和分析,对于深入了解生命遗传学和生态学等学科领域非常重要。
DNA重复序列的定义DNA重复序列是指在同一基因组中存在多个拷贝的DNA序列,这些序列可从数个到上百万个。
DNA重复序列通常分为两类:串联重复序列和散在重复序列。
串联重复序列指的是在染色体上成串排列的一组高度重复的序列单元,这些序列单元之间没有边界,它们的长度可以从几十个碱基对到数千个碱基对不等。
而散在重复序列则是指那些在染色体上位置分散的、无规则排列的重复序列,这些序列的大小通常比串联重复序列要小得多。
DNA重复序列的分类按照序列特征和生物学功能,可以将DNA重复序列分为多个子类。
其中,最常见的包括:1.转座子:是一种自由活动的DNA分子,它可以通过剪切和粘贴的方式在基因组中移动。
转座子的特点是在其两端有着相同或相似的重复序列,这些重复序列称为翻转复制子,可以促进转座子的插入和删除。
2.干扰素:是一种短的重复序列,长度通常在10到50个碱基对之间。
它们可以在基因组中重复出现,并且可以在转录时对基因表达产生影响。
3.Satellite序列:是一种重复出现的DNA序列,长度通常为几十到数百个碱基对不等。
它们通常在染色体的某个区域上以卫星形式出现,因此得名。
DNA重复序列的识别方法DNA重复序列在基因组中复杂多样,因此,需要采用一些特殊的方法来识别和分析它们。
下面介绍几种常见的DNA重复序列的识别方法。
1.同源比对:将已知的重复序列与当前基因组中的DNA序列进行比对,根据重复序列的特点在基因组中查找相似的序列。
同源比对可以同时识别和分类DNA 重复序列。
dna分类的原理及应用
DNA分类的原理及应用原理DNA分类是通过对DNA序列进行分析和比较来确定物种和个体之间的差异和相似性的方法。
它基于DNA的遗传信息和进化过程,通过比较DNA序列的相似性程度来确定物种之间的亲缘关系和进化关系。
DNA分类的原理主要包括以下几个步骤:1.DNA提取:首先从待分类的样本中提取DNA,在实验室条件下进行处理和净化,以获取高质量的DNA样本。
2.PCR扩增:利用聚合酶链式反应(PCR)技术,选择特定的DNA片段进行扩增。
这些DNA片段通常是高度保守的基因区域,如线粒体DNA或核糖体DNA。
3.DNA测序:将扩增后的DNA片段进行测序,获取DNA序列信息。
目前,高通量测序技术的发展使得DNA测序变得更加快速和经济高效。
4.数据分析:将测序获得的DNA序列进行比对和分析。
常用的方法包括序列比对、相似性评估、系统发育分析等。
通过比较样本之间的DNA序列差异和相似性,可确定物种分类和进化关系。
应用DNA分类的应用非常广泛,涵盖了生物学、医学、农业、环境科学等多个领域。
以下是一些常见的应用场景:1.物种鉴定:DNA分类可用于识别和鉴定不同物种之间的差异和相似性。
对于复杂的生物样品或濒临灭绝的物种,DNA分类可以提供更精确和可靠的鉴定结果。
2.犯罪侦查:DNA分类在刑侦领域有重要的应用。
通过分析凶案现场的DNA样本与嫌疑人的DNA样本之间的关系,可以提供有力的证据来确定犯罪嫌疑人。
3.医学诊断: DNA分类可用于疾病的诊断和预测。
对于一些遗传性疾病,通过检测与疾病相关的基因突变,可以对患者进行早期诊断、预防和个体化治疗。
4.农业育种:DNA分类在农业生产中起着重要的作用。
通过对农作物和家畜的DNA序列比较和分析,可以筛选出高产、抗病或具有其他有益性状的品种,实现农业产量的提高和质量的保证。
5.生物多样性保护:DNA分类是研究生物多样性和保护濒危物种的重要工具。
通过对不同物种的DNA序列进行比较和分析,可以更准确地了解物种的分布、遗传多样性和进化关系,为生物多样性保护提供科学依据。
DNA分类
一、问题描述DNA 序列是由a,c,g,t 4 个表示4 种碱基的字符组成的序列。
研究DNA 序列的结构及序列中隐藏的规律,成为生物信息学的重要研究课题。
已有的研究以某些碱基特别丰富为特征;以及用统计方法考察序列片断之间的相关性。
问题给出了两类已知类别(A类和B类)的人工制造DNA序列各10条。
(art-model-data:标号1---20)要求:1.提取每一种类别的DNA 序列的显著特征,构造分类方法;2.用两类已知类别的序列,衡量分类方法的有效性;3.用满意的方法对20 个末表明类别的人工序列(art-model-data:标号21—40)进行分类;4.用分类方法对Nat-modal-data中的182 个自然DNA 序列进行分类。
二、合理假设1.碱基a、c、g、t 的内部结构及其生化性质不予考虑。
2.以4 种碱基a、c、g、t 的含量作为指标来判别类别是同样重要的。
3.用4 种碱基a、c、g、t 的含量作为指标来判别类别是充分的。
4.3种碱基a、c、g 的含量对应的数据均来自三元正态总体。
三、问题分析本问题是一个统计判别分析问题。
问题要求对DNA序列按照一定的要求进行分类,即要找出一种分类标准。
这就要求我们用数学方法分析DNA 序列的结构,找出同一类中的结构特征,与异类的结构相区别,并转化为数学表达式。
通过对A 类和B 类DNA 序列的考察,我们提出下面两种分类指标:(1)a,c,g,t 四种碱基在每个序列中的含量指标(3 维向量)任何DNA 序列都是由a,c,g,t 四种碱基构成的,因此以某些碱基特别丰富为特征,我们可以大致了解每类DNA序列的共同特征,而且,从直观上讲,在A 类和B 类中,每一类中的DNA 序列在碱基含量上有共性。
从而,可以用a,c,g,t 四种碱基各自的含量之和必为1。
因此,在四种碱基的含量有一种是依懒型的,故可用a,c,g,t四种碱基的含量作为指标。
(2)gg、tt 含量指标(2 维向量)上面所述的第一种指标是单个碱基的含量,这虽然在一定程度上可以描述DNA 的性质,但它未考虑序列间的相关性。
DNA序列分类
DNA序列分类摘要本文以题目的有关数据为资料,对如何对DNA序列分类进行研究,针对各个问题,我们分别建立了欧氏距离分类模型、马氏距离分类模型、Fisher分类模型多个数学模型,经过严密的理论论证,精确的计算,很好的解决了DNA序列归类的问题。
针对问题一,我们首先根据的相关知识/理论,建立了欧式距离模型模型。
为了解决DNA序列分类,我们运用统计、最优化、特征值提取等数学方法,从已知样本序列中提炼出能较好代表两类特征的关键字符串,我们可以得到量化的分类标准,对所给的DNA序列进行分类。
在问题二中,我们同样采用了问题一中的三种模型,进行检验。
在求解的过程中,我们在数据的处理上不可避免的存在不少误差,我们通过探讨研究,给出了误差分析,分析了其中的误差产生的来源,尽量避免由于误差所造成求解的错误,进而得出了一个较好的方案。
我们还对模型进行改进,通过多个模型的比较,使得模型更加合理,更加切合实际。
从而较好的解决了对各种DNA序列的分类。
关键词:序列分类;特征分析;分类模型;最优分类一、问题的重述㈠背景知识1、DNA序列的概况从2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
2、DNA序列排列原理DNA序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,在DNA全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性。
㈡问题作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。
亲子鉴定常用的序列
亲子鉴定常用的序列一、什么是亲子鉴定亲子鉴定是通过比对DNA序列,确定亲子关系的一种科学技术。
它可以用于识别父母与子女之间的亲缘关系,也可以用于识别兄弟姐妹之间的亲缘关系。
二、亲子鉴定常用的序列1. STR序列STR(Short Tandem Repeat)序列是指短串联重复序列。
它是由2-6个碱基组成的DNA片段,在人类基因组中广泛存在。
由于这些片段在不同人群中具有不同的长度和数量,因此可以用来作为个体识别和亲缘关系分析的标记。
2. SNP序列SNP(Single Nucleotide Polymorphism)序列是指单核苷酸多态性。
它是指在基因组中出现频率较高的单个核苷酸变异。
由于SNP变异很少,因此它们可以用来确定两个个体之间是否具有共同祖先。
3. Y染色体STR序列Y染色体STR(Short Tandem Repeat)序列是指在Y染色体上发现的短串联重复序列。
由于Y染色体只能从父亲传递给儿子,因此这种方法只能用于确定父子之间的亲缘关系。
4. mtDNA序列mtDNA(Mitochondrial DNA)序列是指线粒体DNA。
由于mtDNA只能从母亲传递给子女,因此这种方法只能用于确定母子之间的亲缘关系。
三、亲子鉴定常用的方法1. STR分型法STR分型法是目前最常用的亲子鉴定方法之一。
它通过PCR扩增样本中的STR序列,然后使用电泳技术将扩增产物分离出来,并通过比对不同样本中的STR长度和数量来确定亲缘关系。
2. SNP分型法SNP分型法是另一种常用的亲子鉴定方法。
它通过PCR扩增样本中的SNP序列,然后使用芯片或测序技术进行检测,以确定两个个体之间是否具有共同祖先。
3. Y染色体STR分型法Y染色体STR分型法是一种仅适用于父子关系鉴定的方法。
它通过PCR扩增样本中的Y染色体STR序列,然后使用电泳技术将扩增产物分离出来,并通过比对不同样本中的Y染色体STR长度和数量来确定父子关系。
DNA序列分析-东南大学生物信息学实验室
第五章 DNA序列分析对于DNA序列分析,除了序列比较之外,我们最关心的就是从序列之中找到基因及其表达调控信息。
寻找基因牵涉到两个方面的工作,一是识别与基因相关的特殊序列信号,如启动子、起始密码子,通过信号识别大致确定基因所在的区域。
另一个工作是预测基因的编码区域,或预测外显子所在的区域。
然后结合两个方面的结果确定基因的位置和结构。
绝大部分基因表达调控信息隐藏在基因序列的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。
本章主要讨论如何分析DNA序列中的信息,着重介绍功能位点分析和基因识别方法。
第一节DNA序列分析步骤和分析结果评价在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。
存放这些信息的DNA片段称为功能位点,如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。
在实际应用中,对于DNA序列需要根据不同的要求进行不同的处理,不存在一个通用的序列分析方法。
但是由于分析的对象都是DNA序列,并且在绝大部分情况,待解决的问题可以归纳为序列特征识别或者序列模式识别问题,目标是寻找基因及其表达调控信息,因而可以给出一个基本的DNA 序列分析方案。
(1)发现重复元素。
这是重要的一步,因为重复元素会给DNA序列分析带来许多问题。
例如,由于重复元素的存在,在搜索数据库时可能得到许多同样的结果,这些结果的得分很高,使解释数据库搜索结果变得复杂、困难。
所以一般先寻找并屏蔽重复的和低复杂性的序列,然后寻找基因以及与其相关的调控区域。
(2)数据库搜索。
通过数据库搜索,发现相似序列或者同源序列,根据相似序列具有相似结构及相似功能的原理,通过类比,得到关于待分析序列的初步信息,指导详细的序列分析。
例如,如果通过搜索发现待分析的序列与EST或已知的蛋白质编码序列相似,则可以推测待分析的序列是基因序列。
4DNA序列分析
Clustal输入多个序列
快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。
邻接法(NJ)构建一个树(引导树)
根据引导树,渐进比对多个序列。
第一步:输入序列文件
第二步:设定比对参数
参数设定窗口
0:碱基不匹配; 1:碱基完全匹配
第三步:开始序列比对
第四步:比对完成,选择保存结果文件的格式
Blastn---1
Blastn1的作用: ①对于已知的基因,可以分析其相似基因; ②对于未知的基因片段,可以分析其属于什么基因。
描述以表格的形式呈现(以匹配分值从大到小排序) Accession下程序比对的序列名称,点击相应的可以进入更为详细的map viewer Descriptions下是对所比对序列的简单描述 Max score匹配分值,点击可进入第四部分相应序列的blast的详细比对结果 Total score总体分值 Query coverage覆盖率 E value——E(Expect)值 Max ident——匹配一致性,即匹配上的碱基数占总序列长的百分数。 Links——到其他数据库的链接。
可直接查看所在ORF对应的 蛋白质的对数据库的比对
单击,详细查看一个ORF。进一步 确定ORF是否正确需要借助Kozak规 则。
Kozak规则
Kozak序列是存在于真核生物mRNA的一段序列,其在翻译的 起始中有重要作用。
Kozak序列 位于真核生物mRNA 5’端帽子(m7GPPPN)结构
Expect是输入序列被随机搜索出来的概率,该值越小越好。 Identities是相似程度,即输入序列和搜索到序列的匹配率 Gaps就是空白,即比对序列只有一条链上有碱基 strand=plus/minus即询问序列和数据库里面序列的互补链匹配
DNA序列分析
K
W
P
W
V
H
T
Q
*
D
E
C
*
I
S
R
使用DNASTAR软件的Editseq模块,可进行序列的 多种变换。
四、限制性酶切位点分析
限制性内切酶(restriction endonuclease)
展示DNA序列的酶切位点图 可选择限制性内切酶
在线平台NEBcutter V2.0
/NEBcutter2/index.php
常规的PCR引物设计实例
使用BLAST、DNASTAR、PRIMER 5.0等网络 和软件平台。步骤: 序列查找和下载。NCBI网站检索。 序列同源性比较。寻找同源保守区域。 引物设计与筛选。
引物的加工与修饰。
引物的评价与分析。
引物的合成与PCR实验。
1、Primer 5.0使用介绍
PCR反应循环
PCR反应体系
模板:DNA
引物:P1,P2 DNA聚合酶:Taq 原料:dNTP 反应缓冲液:Buffer 辅助因子:Mg2+
Taq
Mg2+ P1 dTTP P2 dCTP dGTP
dATP
引物(primers)
引物是人工合成的两段寡核苷酸序列,一个引物
与目的区域一条DNA模板链互补,另一个引物与目
一、测序仪测序
Sanger双脱氧链终止法
二、测序结果文件的判读
ABI文件
Seq文件
Chromas
序列分析常 用软件:
Bioedit Clustal W, X DNASTAR Genedoc Vector NTI
Chromas软件:
打开ABI文件,可检测测序的质量好坏。 无杂峰、无套峰,信号强度正常。
10第十一章DNA序列测定和分析
A > C 的反应
还有一种反应(A>C),必要时可用来参考。在 90℃下,用1.2mol/L NaOH处理,可使A位点发生剧烈的 断裂反应,而C位点的断裂反应较微弱。
第19页,共81页。
四、测序策略
鸟枪法
鸟枪法又称随机法,它是先将大片段DNA经酶切或 超 声 处 理 , 切 割 成 适 合 测 序 大 小 的 片 段 ( 如 500 ~ 800bp),然后亚克隆到M13载体上,得到单链DNA后测 序,再根据重叠的部分推测出整个大片段的序列。
速、大规模测序提供了新的思路和方法。
第24页,共81页。
1. Roche(454)GS FLX sequencer
Roche公司收购454公司的测序仪并经改造升级, 该测序仪最早的商业化产品于2004年推出。454测P载样。
(4)测序。
第12页,共81页。
自动化测序的输出信号
第13页,共81页。
三、Maxam-Gilbert 化学直读法
这是一种基于DNA降解的方法。此法的原理是首 先 将 待 测 序 的 DNA 片 段 一 端 用 放 射 性 标 记 , 然 后 使 DNA链在特定碱基处断裂。控制条件使每个DNA分子 只发生一处断裂,就可以得到一系列只差一个核苷酸 的DNA片段,跑电泳后可得出序列。
第十一章 DNA序列测定和分析
一、加减法
二、 Sanger 双脱氧链终止法 三、 Maxam-Gilbert 化学直读法
四、测序策略
五、第二代测序技术
六、杂交测序与DNA芯片技术
七、表达序列标签
八、 DNA 序列分析
第1页,共81页。
一、加减法测序
以 待 测 DNA 为 模 板 , 加 一 同 位 素 标 记 的 短 链 引 物 , 在 4×dNTP存在下,用DNA聚合酶Ⅰ催化合成各种随机长度的 产物。将模板及合成的产物分为“加法组”和“减法组”, 加法组和减法组又各分为4组。“加法组”中的每一小组只加 一种dNTP,4组各加不同的dNTP。以加dATP组为例,当前 面合成的随机长度的DNA下一个核苷酸该加A时,可以将A加 上;如果正好以A结尾,而下一个不该加A时,则链保持不变; 如果不以A结尾,下一个又不该加A时,则利用DNA聚合酶Ⅰ 的3’→5’外切活性逐个切除已合成的核苷酸,直到遇到A为止。 最终加dATP组的每一条新合成的链都是以A结尾,整个组中 各个A处结尾的链都有。
DNA序列的生物信息学分析
DNA序列的生物信息学分析生物信息学是对生物学数据进行处理、分析和解释的跨学科领域。
在生命科学和医学研究中,生物信息学分析是至关重要的工具,可用于理解基因序列、蛋白质结构、基因组功能等方面。
DNA序列是生物信息学分析的核心内容之一,本文将围绕DNA序列的生物信息学分析展开。
DNA序列是基因组的基本单位,可以采集并以文本文件的形式储存。
生物信息学分析DNA序列的主要方法包括序列比对、基因注释、基因功能预测、DNA变异分析等。
这些方法可以通过多种工具和软件实现,其中一些常用的工具包括BLAST、GeneMark、MAFFT、Clustal等。
下面将详细介绍这些方法和工具。
1. 序列比对序列比对是将两个或多个序列进行对齐,以确定它们之间的相似性、差异性和同源性的过程。
序列比对可以用于DNA序列、蛋白质序列和RNA序列的比较。
在DNA序列的比较中,序列的相似性和差异性信息可以用于确定物种的进化关系、DNA序列的保守区域、功能区域和突变位点等。
常用的序列比对工具包括BLAST、Clustal、T-Coffee等。
BLAST是最常用的序列比对工具之一,可以在不同数据库中比对DNA、蛋白质和RNA序列。
BLAST通过在一个“查询序列”中搜索与“数据库序列”相似的区域来实现序列比对。
比对得分是基于匹配度、错配和间隙数目确定的。
BLAST比对结果提供了比对得分、查询和数据库序列的保守区域、匹配、错配和间隙数目等信息。
2. 基因注释基因注释是为基因序列赋予功能或信息的过程。
这个过程通常包括基因位置、外显子、内含子、启动子、终止子、基因名称、编码蛋白质等信息的确定。
在基因组中注释基因是理解整个基因组结构和功能的重要步骤。
常用的基因注释工具包括GeneMark、Glimmer等。
GeneMark是一个广泛使用的基因预测工具之一,可以预测基因的位置、方向和外显子结构。
GeneMark使用了马尔可夫模型和基因富含偏好等方法来预测基因位置,并根据之前预测的结果来增加预测准确性。
序列分析
七、序列比对
概念: 相似性和同源性 局部相似性和整体相似性
相似性分数矩阵
数据库的搜索
FastA BLAST
相似性和同源性
数据库搜索的基础是序列的相似性比对,而寻找同源序 列则是数据库搜索的主要目的之一。 所谓同源序列,简单地说,是指从某一共同祖先经趋异 进化而形成的不同序列。同源性可以用来描述染色体—“同源染
可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索
第四步:进行目标序列与搜索得到的相似序列的整体列线(global alignment)
虽然第三步已进行局部列线(local alignment)分析,但整体列线有助于 进一步加深目标序列的认识
第五步:查找基因家族
进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。 可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服务 器上进行
五、从序列中寻找基因 1.基因及基因区域预测
基因按其功能可分为结构基因和调控基因:结构基因 可被转录形成mRNA,并进而转译成多肽链;调控基因是 指某些可调节控制结构基因表达的基因。在DNA链上,由 蛋白质合成的起始密码开始,到终止密码子为止的一个 连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列,除了细菌和病 毒的DNA中ORF是连续的,包括人类在内的真核生物的大 部分结构基因为断裂基因,即其编码序列在DNA分子上是 不连续的,或被插入序列隔开。断裂基因被转录成前体 mRNA,经过剪切过程,切除其中非编码序列(即内含子), 再将编码序列(即外显子)连接形成成熟mRNA,并翻译成 蛋白质。假基因是与功能性基因密切相关的DNA序列,但 由于缺失、插入和无义突变失去阅读框而不能编码蛋白 质产物。
DNA序列分类
B类:21,24,26,28,31,32,33,36,38,40。
在判别182组DNA序列时,也运用了上述方法,由于数据量较大,计算在matlab中进行,计算各DNA密码子频率,得到特征向量,参照问题一的方法,最后将其分为A、B两类。
然后计算出计算出A类和B类10串DNA的各密码子出现频率的均值,组成一个矩阵。
其中 、 , 。再构造新的矩阵:
根据Fisher判别法的定义,在四维的情况下,需要求出的Fisher判别函数为 ,下面计算系数 。
在matlab中计算过程如下图:
计算得到各系数为:
Fisher判别函数为:
分别计算A类和B类的样本均值 和临界值 :
针对问题一,假设将DNA序列分成A,B两类。统计附件一中所给的DNA序列中不同密码子a、t、g、c的频率,构造特征向量。利用Fisher判别法,求出Fisher函数。并利用MATLAB编程,求解出Fisher函数式中各项系数。然后分别计算A类和B类的样本均值,即得出分类标准。
针对问题二,基于问题一中得出的分类标准,对附件二中的数据进行分类。
关键词:Fisher判别法 DNA序列 特征向量matlab矩阵计算
2.问题重述
人类基因组计划中DNA全序列草图在2000年6月完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DNA序列的分类与判别分析摘要: 本文对DNA 序列分类问题进行了讨论.。
从“不同序列中碱基含量不同”入手,建立了欧氏距离判别模型、马氏距离判别模型以及Fisher准则判定模型。
接着,本文对三种分类算法进行了对比, 对算法的稳定性进行了讨论。
关键词:DNA分类;欧氏距离;马氏距离;Fisher判别;DNA sequence classification and discriminant analysisMA FuyuSchool of Management and Economics, China University of Geosciences, P.R.China, 430074Abstract: In this paper, the classification of DNA sequences are discussed. From the “content of different base sequence in a different” approach, the establishment of a discriminant model of Euclidean distance, Mahalanobis distance, as well as Fisher discriminant model to determine the model guidelines. Then, this paper three classification algorithms were compared, the stability of the algorithm are discussed.Keywords: DNA taxonomy; Euclidean distance; Mahalanobis distance; Fisher Discriminant1、问题的重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A 类,11-20为B类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类;B类。
2、模型的条件和假设1)假设可以用DNA序列中的各碱基的百分含量的多少来对DNA序列进行分类。
2)假设可以根据DNA序列本身的碱基排列顺序的相关性的平均值的大小来判别。
3、符号约定na:任一给定序列中碱基A的百分含量; ng:任一给定序列中碱基G 的百分含量;nt:任一给定序列中碱基T的百分含量; nc:任一给定序列中碱基C 的百分含量;Gi:由某些具有相同属性的个体组成的类。
4、问题的分析和解答首先,我们考虑采用序列中的A , G, T , C 的含量百分比作为该序列的特征. 这样的抽取特征的方法具有其生物学的意义. 前面提到过, 在不用于编码蛋白质的序列片断中,A 和T 的含量多些, 因此以某些碱基特别丰富作为特征去研究DNA序列的结构是具有可行性的. 将序列中的A , G, T , C 的含量百分比分别记为na, ng , n t, nc, 则得到一组表征该序列特征的四维向量(na, ng , n t, nc). 考虑到na, n t, ng , nc 线性相关(na+ ng + n t+ nc= 1) , 所以我们采用简化的三维向量(na, n t, ng ) 来进行计算. 对于标号为i 的序列, 记它的特征向量为X i . 显然, 任意序列的特征向量与一个3 维空间的点对映.一般的判别问题为: 设有k 个类别G1, G2, ⋯, Gk , 对任意一个属于Gi 类样品x , 其特征向量X 的值都可以获得. 现给定一个由已知类别的一些样品x 1, x 2, ⋯, x n 组成的学习样本, 要求对一个来自这k 个类别的某样品x , 根据其特征向量X 的值作出其所属类别的判断.在本题DNA 序列分类中, k=2, G1= A , G2= B ,特征向量X 是三维的. 学习样本共包含n=20个样本, 其中10个属于A , 后10个属于B. 我们分别采用了欧氏距离(Euclid) 分类模型, 马氏距离(M ahalanob is) 分类模型和F isher 判别模型来对序列样本分类.4.1、欧氏距离(Euclid) 分类模型在欧氏距离(Euclid) 分类模型中, 把每个样本视为三维空间的一个点, 以其到不同集合几何中心的欧氏距离作为判据. 具体的算法如下:1)计算属于A 类与属于B类的10个样本点的集合各自的几何中心:计算得:A(0.28665,0.154177,0.383251);B(0.383251,0.501818,0.100909)对于给定的样本点,分别计算该点到的欧氏距离, 以及该点到的欧氏距离;2)判别准则如下:(1) 若,则将点判为A 类;(2) 若, 则将点判为B 类;(3) 若, 则将点判为不可判类;用上述算法对已知样学习样本A 1—A 20 进行分类, 结果是除了A 4 被错误的分到了B类外, 其余的19 个样本全部正确, 分类准确率达到95%.用上述算法对未知的人工序列A 21—A 40 进行分类, 得到的结果是:A 类: 22, 23, 25, 27, 29, 30, 32, 34, 35, 36, 37, 39;B 类: 21, 24, 26, 28, 31, 33, 38, 40.用欧氏距离作为判别依据虽然简便直观, 但存在着明显的缺陷: 从概率统计的角度来看, 用欧氏距离描述随机点之间的距离并不好. 因此当待分类样本是随机样本, 具有一定的统计性质时, 这个模型并不能很好的描述两个随机点之间的接近程度.4.2、马氏距离(Mahalanobis) 分类模型为了克服采用欧氏距离时的缺陷, 我们采用马氏距离来代替欧氏距离. 改进后的算法如下:设: 三维总体G 的均值为u=(u1,u2,u3)T , 协方差矩阵为非奇异阵V 3*3, 则三维样本X到总体G的马氏距离为:其中未知的L可用学习样本的均值来代替, 协方差矩阵V 可用学习样本的样本协方差矩阵来代替.将马氏距离用于判别模型, 遵循判据如下:若dm (X ,A ) d¬m (X ,B ) , 则判定x 为B 类;若dm (X ,A ) = dm (X ,B ) , 则判定x 为不可判类;用上述算法对已知样学习样本A 1—A 20 进行分类, 结果是除了A 4 被错误的分到了B类外, 其余的19 个样本全部正确, 分类准确率达到95%.用上述算法对未知序列A 21—A 40 进行分类, 得到的结果是:A 类: 22, 23, 25, 27, 29, 30, 32, 33, 34, 35, 36, 37;B 类: 21, 24, 26, 28, 31, 38, 39, 40.4.3、Fisher准则分类模型在多维空间里分类的方法不仅仅是距离分类法一种, 常用的Fisher 分类法就是另一种基于几何特性的分类法. 在距离判别模型中, 三维空间的样品X 被映射为一维的距离 d 来作判断. Fisher 分类法的思想也是把三维空间的样本映射为一维的特征值y , 并依据y 来进行判别. 具体的作法是先引入一个与样本同维的待定向量u, 再将y 取为X 坐标的线性组合y = uT x. 而u 的选取. 要使同一类别产生的y 尽量聚拢, 不同类别产生的y 尽量拉开.这样, 我们便可将样品X 到某一类G 的距离定义为y = uT x 与y c= uT c 之间的欧氏距离:其中c 为G 的几何中心.Fisher 分类的判据为:若L (X ,A ) L (X ,B ) , 则判定x 为B 类;若L (X ,A ) = L (X ,B ) , 则判定x 为不可判类.根据对u的要求, Fisher 提出了比较有效的选择算法, 利用该算法, 从学习样本中获得:u = (0. 3365, - 0. 087, 0. 9377)TL (X ,A ) = |0133653 (na - 0. 2860) - 0. 0873 (nt - 0. 1550) + 0. 93773 (ng - 0. 3830) |L (X ,B ) = |0133653 (na - 0. 2940) - 0. 0873 (nt - 0. 5010) + 0. 93773 (ng - 0. 1010) |用上述算法对已知样学习样本A 1—A 20进行分类, 结果仍然是除了A 4被错误的分到了B 类外, 其余的19 个样本全部正确, 分类准确率达到95%.对于未知序列A 21—A 40 进行分类, 得到的结果是:A 类: 22, 23, 25, 27, 29, 34, 35, 36, 37;B 类: 21, 24, 26, 28, 30, 31, 32, 33, 38, 39, 405、三种距离判别模型的比较这三种模型在判别结果上有一定的区别, 对于序列A 30,A 32,A 33 及A 39, 三种方法给出了不同结果, 见表1:对于这种情况, 我们提出一个联合判定准则: 对于任一个序列, 当三种分类法结果完全一致时, 认为它判别有效; 若不然,当三种分类法结果不一致时, 认为该序列为不可判类.对于三种方法都无法正确分类的A 4 序列, 可认为是异常情况, 不影响算法的性能.6、算法的稳定性前面比较算法的时候, 曾多次提到分类算法的稳定性问题. 分类算法的稳定性是除了算法的成功率之外的另一较重要的指标.所谓分类算法的稳定性, 是指算法在样本发生了轻微变化时作出正确判别的能力.对于本题,是指算法在样本序列发生了轻微的碱基缺失,错位,错排情况时作出正确判别的能力.因为本题要求我们研究的是DNA 序列粗粒化和模型化的问题,所以分类时是对序列的整体特征进行区分.局部碱基的组成变化应该对算法的分类结果没有影响.我们所提出的几个模型均较好的满足了这一点.参考文献:[ 1 ]孙乃恩, 孙东旭, 朱德煦.分子遗传学[M]. 南京:南京大学出版社, 1996.1 [ 2 ]白其峥.数学建模案例分析[M].北京:海洋出版社, 2000.1[ 3 ]潘德惠.数学模型的统计方法[M]. 辽宁:辽宁科学技术出版社, 1986.1 [ 4 ]阎平凡.黄端旭.人工神经网络[M]. 安徽:安徽教育出版社, 1991.1[ 5 ]李振刚.分子遗传学概论[M]. 安徽:中国科学技术大学出版社, 1990.1。