DNA序列的一种分类方法
DNA序列分类与分析
DNA序列分类与分析DNA序列是基因组研究中最重要的数据,是生命科学研究不可或缺的基础。
DNA序列分类与分析技术的发展为研究生物进化、基础医学、人类遗传学等领域提供了有力的工具。
本文将从DNA 序列分类、序列比对、序列聚类和序列分析四个方面论述DNA序列分类与分析技术的基本概念、方法和应用。
一、DNA序列分类DNA序列分类是基因组研究中的重要分支,通常使用分类系统将物种分类成类群进行研究。
在DNA序列分类中,常用的指标是DNA序列的异构性,即在DNA序列长度、结构及单个核苷酸中的差异。
异构性与物种的共同祖先和进化历史密切相关。
DNA序列分类中,最常用的方法是构建系统发育树。
系统发育树是生物分类学中用于描述不同物种、亚种或种群之间演化关系的结构图。
它是基于DNA序列比对而建立的,通过序列的相似性和区别,揭示物种之间的亲缘关系。
传统上,系统发育树的构建是基于蛋白质或RNA序列,但由于DNA序列具有更高的信息含量和进化精度,现在大多数学者使用DNA序列构建系统发育树。
二、DNA序列比对DNA序列比对是确定DNA序列异构性的关键步骤,它包括两种基本类型的比对:序列比对和结构比对。
序列比对是将两条DNA序列首尾相连,并建立匹配方式,计算相似性和不同之处。
结构比对是在DNA序列中发现二级和三级结构的变化,这些变化可能引起不同函数特性的遗传标记。
DNA序列比对的目的是识别序列的同源和非同源性。
同源性表示两者基因组DNA是从相同物种或相同基因家族的不同成员中产生而来,而非同源性表示它们来自于不同的物种或基因家族。
比对常用的方法是计算DNA序列的氨基酸比例和碱基对比率。
这个过程称为比对分析,得到的结果称为比对分析结果。
三、DNA序列聚类DNA序列聚类是一种独特的DNA分析方法,通过相似性的度量,在群体或物种间创建基于聚类的关系。
聚类是一种用于不同对象的分组方法,目的是将相似的对象放在同一组中,并将不同的对象放在不同组中。
基于DNA Barcoding技术的生物多样性研究
基于DNA Barcoding技术的生物多样性研究1. 引言生物多样性是自然界的重要组成部分,不同物种之间具有独特的生命形态和生物学特性。
随着人类活动的加剧,许多物种受到了严重威胁,成为濒危甚至灭绝物种。
因此,研究生物多样性和物种分类成为了一个重要的研究领域。
近年来,随着基因技术的发展,DNA Barcoding技术在生物多样性研究中得到了广泛应用。
2. DNA Barcoding技术基本原理DNA Barcoding技术是一种基于分子生物学的技术,通过测定物种间特定的DNA序列,来进行分类和识别。
目前,DNA Barcoding技术常用的基因为线粒体DNA的COI基因。
COI基因具有以下优点:在不同物种之间的保守性较高,易于扩增和测序,所以成为了DNA Barcoding技术的主要基因。
在使用DNA Barcoding技术进行生物分类和识别时,需要经过以下步骤:提取并纯化样品的DNA,扩增COI基因,测序并构建系统发育树以辅助分类和物种识别。
通过COI基因在不同物种之间的差异,可以有效地识别和分类目标物种。
3. DNA Barcoding技术在生物多样性研究中的应用3.1 空间分布模式研究DNA Barcoding技术可以通过对不同生物样品的COI基因序列进行比对,研究其空间分布模式。
利用DNA Barcoding技术,可以快速、准确地识别和分类样品,进而揭示其分布特征。
在生态学领域,DNA Barcoding技术也可以用于研究物种群体的空间分布、种间物种竞争等问题。
3.2 物种鉴定和分类在生物多样性研究中,物种鉴定和分类是一个重要的研究方向。
传统的物种鉴定和分类方法需要对生物形态、生理学、行为等进行研究,耗时且易造成分类误差。
而DNA Barcoding技术可以通过其高度标准化的测量手段,快速建立物种鉴定和分类模型。
同时,DNA Barcoding技术还可以揭示物种的交叉聚类现象和多样性来源等问题,从而帮助深入研究物种的进化与分化历史。
人类基因组dna的分类
人类基因组dna的分类人类基因组DNA的分类人类基因组DNA是指构成人类遗传信息的一系列DNA序列,它根据不同的功能和特征可以被分类。
这些分类对于我们了解人类基因组的结构和功能非常重要,有助于研究人类遗传性疾病的发生机制,以及人类进化和种群起源的研究。
本文将介绍人类基因组DNA的分类,并对每个分类进行简要说明。
1. 编码DNA编码DNA是指人类基因组中具有编码蛋白质的功能序列。
它包含了一系列基因,每个基因都含有一段能够编码特定蛋白质的DNA序列。
根据最新的研究,人类基因组中大约有20,000至25,000个编码基因。
这些编码基因决定了我们身体的结构和功能,包括生长发育、免疫系统、代谢过程等。
2. 非编码DNA非编码DNA是指在人类基因组中不具有编码蛋白质的功能序列。
尽管非编码DNA不参与蛋白质的编码,但它们在维持基因组的结构和功能上起着重要的作用。
非编码DNA可以分为多个子类,其中包括:- 转录调控区域:转录调控区域是位于编码基因附近的DNA序列,它们通过与转录因子结合来调控基因的转录过程。
转录调控区域对于基因的表达调控至关重要,决定了基因在不同组织和不同发育阶段的表达模式。
- 基因间区域:基因间区域是指编码基因之间的DNA序列。
虽然这些区域不含有编码蛋白质的序列,但研究发现它们可能包含一些重要的非编码RNA序列,这些RNA可能在基因调控和细胞过程中发挥作用。
- 重复序列:重复序列是指在基因组中重复出现的DNA序列。
它们可以分为两类:串联重复序列和散在重复序列。
串联重复序列是连续重复出现的DNA序列,如端粒重复序列和线粒体DNA重复序列。
散在重复序列是在基因组中分散出现的DNA序列,如转座子和微卫星序列。
3. 突变DNA突变DNA是指人类基因组中发生的突变,包括单核苷酸多态性(SNP)和结构变异。
SNP是指在基因组中单个核苷酸发生突变的现象,它是人类基因组中最常见的遗传变异形式。
结构变异是指基因组中较大片段的插入、缺失、倒位或重复等突变。
DNA序列的分类方法
DNA序列的分类方法摘要:本文通过对20个已知类别的DNA序列进行统计分析,由浅入深进行研究,建立了五种DNA序列分类的模型。
模型一利用单个碱基在序列中的含量不同,提出单碱基分类标准;模型二根据碱基c,g的百分比之和与碱基a,t的百分比之和的比值α=++进行分类;模型三根据各序列中氨基酸分布不同引入分类参数β得到C G A T()/()分类标准;模型四把DNA序列中氨基酸含量分布转化为空间向量的距离关系,对未知类别的DNA相对于不同类别集合的距离进行分类;模型五利用模糊聚类分析法对DNA进行分类.关键词:DNA 分类模糊聚类分析一、问题的提出及分析1953年,诺贝尔奖获得者沃森(Watson)和克里克(Crick)创造了DNA链的双螺旋模型,并提出遗传信息由DNA传递给蛋白质的基本法则——中心法则.DNA(脱氧核糖核酸)链是由四种不同的核苷酸(a, t, g, c)排列而成,在DNA中,每三个核苷酸顺序组成一种氨基酸,共64种排列方式对应着20种氨基酸(其中有些不同排列对应同一种氨基酸).对于一个DNA来说,我们完全可用一个由a, t, g, c四个字母所组成的一个序列来完全表述不同核苷酸在DNA 中的含量及排序方式.不同氨基酸的含量的分布与排序都表示不同生命特性的重要性质.我们对DNA进行分类时,就应该考虑分布与排序所表示出来的特性,而将特性相近的DNA分为一类.在本文,我们主要是根据不同核苷酸的分布及不同氨基酸的分布所表现出来的相似性,对DNA进行分类.二、模型的基本假设与符号说明(一)基本假设(1)题中所列40个数据为40个不同DNA的40个片段,且包含着每个DNA 中我们所关注的主要信息;(2)182个DNA序列也为182个DNA中的片段,其中包含着以上40个数据中我们所关注的主要信息;(3)上面的所有DNA序列起始处都为一个完整氨基酸的起始处,每三个一组代表着不同氨基酸的排列.(二)符号说明a, t, g, c分别表示腺嘌呤,胸腺嘧啶,鸟嘌呤,胞嘧啶;,,,A T G C表示DNA片段中分别含a, t, g, c的百分比含量;a, t, g, c中任意3字符的组合为一个氨基酸(包括终止符);()/()C G A Tα=++;β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).三、模型的建立与求解模型一单碱基分类法通过对A,B类DNA序列的细致观察,容易看出,A类的碱基g的个数较多,而B类中碱基t的个数明显多于其他碱基,于是我们对A,B 类序列进行统计得到表1.表1A类中碱基百分比含量 B类中碱基百分比含量上述表格中的数据表明,除第4个数据外,A类中的t的百分比都小于0.19,g的百分比大于0.36, 而B类除倒数第4个数据(第17个序列)中的t的百分比含量大于0.45,g的百分比含量小于0.146.由此得到分类标准为:若0.2636G≥,则该序列属于A类;若T≤且0.1802G<,则该序列属于B类.T≥且0.18020.2883对21~40序列进行统计得到表2.表2 21~40序列中碱基百分比含量根据序列21~40的数值结果(见表2),对序列21~40进行分类可得如下结果:A类:22,23,25,27,29,30,34,35,36,37,39(共11个);B类:21,28,38,40(共4个);评析:此模型易于辨别,对于某些特征较显著的DNA序列的分类较有效,但对DNA中深入的研究缺少足够的理论支持,于是我们对模型进行进一步改进.模型二:参变量α分类法α的值[]1不根据DNA基因技术理论,不同来源的DNA序列()()T=+GC+Aα,得到A类,B类以及序列21~40关于α的数同,引进参数()()T=+AGC+据(见表3、表4).表3 A、B类关于α的数据表表4 序列21~40关于α的数据表通过以上数据的分析,我们发现A类中α的值在0.85~2.1429之间(除第4个数据外),B类中α的值在0.1702~0.6176之间,我们认为A类具有α>0.85这一特征,即B类中含有碱基a、t的数量较c、g多,以α为标准对序列21~40进行分类可得A类:22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39(共11个);B类:21 、24、 28、 38、40(共5个);评析:根据来源不同的DNA序列中,碱基a、t的数量与c、g的数量比例的不同,制定一个较为合理的标准,来区分序列21~40,且具有实际的生物意义[]1和价值.模型三:氨基酸含量分类法我们尝试从氨基酸的分布着手,找出属于A 类(或B 类)DNA 的数据特征,就认为未知DNA 序列只有A 类(或B 类)的性质.我们对A 类和B 类DNA 序列统计出20种氨基酸(剔除休止符)的分布,考虑各DNA 序列长度的不同,对20种氨基酸的百分比的分布绘图,如图所示(含数据):按生物学理论]1[对氨基酸进行分析,由分布图形可以断定,A 类中精氨酸(cga 、cgg 、cgc 、cgt 、aga 、agg )和甘氨酸(ggc 、ggt 、gga 、ggg ),B 类中赖氨酸(aaa 、aag )和苯丙氨酸(ttt 、ttc )为特征氨基酸,引入参数β=111428++赖氨酸的百分比含量(第号)苯丙氨酸的百分比含量(第号)精氨酸的百分比含量(第号)甘氨酸的百分比含量(第号).并求得A 、B 类以及序列21~40关于β的数值(见表5、表6).表5 A 、B 类关于β的数值表表6 序列21~40关于β的数值表容易得出分类标准为:当0≤≤β 1.4,则序列属于 A 类;当0≤≤β 1.4,则序列属于B 类;当1.45.1≤≤β时,则序列无法区分.根据上述分类标准,对序列21~40进行分类得: A 类:22,23,25,27,29,34,35,36,37,39(共10个) B 类:21,24,26,28,30,31,32,33,38,40(共10个) 模型四:中心距离分类法对任何的DNA 序列中的各种氨基酸的百分比含量,容易统计求得,不妨设氨基酸的向量1220(,,,)i i i i S s s s = ,则i S 为一个20维的向量,对于己知的DNA 序列,A,B 类氨基酸的含量百分比和均值分别为:1220(,,,),1,2,,10A A A Ai i i i S s s s i == ; 1220(,,,),1,2,,10B B B B i i i i S s s s i == ; 1011,1,2,,2010A Ajij i S S j ===∑ ;1011,1,2,,2010B Bjij i S S j ===∑ .A 类DNA 序列氨基酸的空间重心为1220(,,,)A A A AS S S S = ;B 类DNA 序列氨基酸的空间重心为1220(,,,)B B B BS S S S = .我们定义i S 到A,B 中序列的氨基酸向量重心的中心距离分别为:20()1,1,2,,10i A Aij j j dS S i ==-=∑ .20()1,1,2,,10i B Bij j j dS S i ==-=∑ .A 类中各序列的氨基酸向量到B 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i A B ABij j j dS S i ==-=∑ ;B 类中各序列的氨基酸向量到A 序列的氨基酸向量重心的距离分别为20()1,1,2,,10i BA BAij j j dS S i ==-=∑ . 我们认为两个DNA 序列的氨基酸向量的距离越近,则这两个序列的氨基酸拟合程度越高,这样确定如下分类准则:(1)DNA 序列的氨基酸向量与A 的重心A S 的距离0.7733d <时,则序列属于A 类;(2)DNA 序列的氨基酸向量与B 的重心B S 的距离0.6660d <时,则序列属于B 类;(3)否则说明该DNA 序列无法归类.应该说明的是,由数值结果(见下表)知,这种准则不会将己知的A 类归于B 类,己知的B 类中的序列归于己知的A 类. 数据结果如下:根据序列21-40的如下的数据结果:用上述的分类准则对序列21-40进行分类得: A 类:27,34,35 B 类:28评析:模型四引入DNA 的氨基酸向量到己知类别(A 类,B 类)重心的距离,提出分类准则,对未知DNA 序列进行分类,具有很好的新意,这样就把一个DNA 序列的排列问题转化为一个空间向量的距离问题.若某DNA 中序列的氨基酸含量的百分比向量到己知的类别的重心距离小,则说明这个DNA 中的序列各种氨基酸含量的百分比与己知类别的氨基酸含量的百分比拟合程度较高,则归入己类别,具有很高的生物学参考价值.模型五:模糊聚类分析分类法如题目已知:DNA 序列1~20,按一定的方法分成A,B 二类,我们用模糊聚类分析方法建立A,B 二类合并后的20个序列的相似矩阵2020()ij R r ⨯=,其中20AB AB AB AB ijikjkij SSSSr --=∑然后通过平方法求其他传递闭包R ',我们取λ水平为0.73,这样将20个序列分为二类A '类和B '类,与原来的A 、B 两类唯一区别是A 类中序列4通过处理后划分到B '类中去,这种分类方法与原来已分好的A ,B 类所形成的差异,其原因可能有以下几种(1) 原来的分类方法有误 (2) 序列4数据有误 (3) 数据信息特征的提炼不够当然我们用某些特殊方法使得分类结果与原来假定的分类吻合.如凡以gt 开头的序列划分为B 类,但这仅仅是一种数字游戏,看不出实际的意义,而且对后面的数据划分无从下手.为了避免A 中序列4的异类特性对A 类整体特征的影响,我们将它从 A 类中删除,只留下其余9个序列作为进一步分析的对象. 我们将待分类的20个序列的集合定义为C .C 中序列i C 与A 中(或B 中)每个元素)9,,1( =i a i 或)10,,1( =i b i 的相关系数的平均值定义为ia r (或ib r )对于C 中任一元素i c ,如ib ia r r >,且6.0>ia r ,则认为i c 隶属于A 类:如ia ib r r >,且6.0>ib r ,则认为i c 隶属于B 类。
DNA序列分类
DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。
知识扩展DNA序列分类DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。
DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。
主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。
DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。
其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。
FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。
欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。
11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评
2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
DNA序列的分类
第31卷第1期2001年1月数学的实践与认识M AT HEM A TICS IN PRACTICE A ND T HEORYV ol.31 N o.1 Jan.2001 任意选出比较多的(为了保证较高的准确性),利用key w ord作为分类标准,然后利用本文提供的加权系数的确定方法就可以定出一个具体的定量标准.具有一定实用价值.参考文献:[1] 李 涛,贺勇军等.M AT LAB工具箱应用指南——应用数学篇.电子工业出版社.[2] 袁亚湘.最优化方法.科学出版社.[3] 张乃孝,裘宗燕.数据结构——c++与面向对象的途径.高教出版社.[4] 汪仁官.概率论引论.北京大学出版社.[5] 陈家鼎,孙山泽等.数理统计学讲义.高教出版社.The Grouping of DNA Sequences ModelYANG Jian, WANG Chi, YANG Yong(Peking U niv ersity,Beijing 100871)Abstract: In this paper,a metho d to classify the DN A sequences is pro po sed.M at hem aticalmethods such as statist ics and optimizatio n ar e used to build t he model.T he data is analysedsufficiently and the“cr itical w or ds”is g ot,w hich can r epresent the char acter istics o f eachgr oup.A ccor ding to this,a quant itative standard for gr ouping is br ought fo rw ar d.T his modelcan pr operly classify t he g iv en data thr oug h t esting.Fir st,t he str ings w hich appear repeatedly(called w or ds)in t he g iv en data ar e scanned out.T he sta ndard frequency and dispersion foreach wo rd ar e calculat ed.Seco nd,using the L east Squar es method,t he pr io rit y functio n isfix ed.T hr oug h stepwise optimizat ion,the co efficients ar e made stable.T hird,the key wo rdsar e selected out and calculate the w eig ht accor ding t o t he pr io rity functio n.A t last,using the“analyse hier ar chy pro cess”,the undeterm ined dat a is classified.T his met ho d can classify theundeter mined data(N o.21—N o.40)fair ly w ell,it can also g iv e g oo d result fo r the last182sequences.DNA序列的分类韩轶平, 余 杭, 刘 威指导老师: 杨启帆(浙江大学,杭州 310027)编者按: 本文借助于计算机符号处理的能力来把握序列中不同碱基的丰度特征,从而进行了利用数理统计方法的分类研究.而后引入相关度分类判别算法及反馈机制来比较碱基的相对位置,在既定方向上颇具新意地把工作推向深入.不足之处在于,未能使用相关度工具对各类样本分别进行分析;此外,“纯数学”必须与其他学科紧密结合才会有优秀的建模工作,本文虽然对编码氨基酸的三联体进行初步探讨,着墨处自是轻淡许多.摘要: 本文对A 题中给出的DNA 序列分类问题进行了讨论.从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型,马氏距离判别模型以及Fisher 准则判定模型;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法,并进一步研究了带反馈的相关度分类判别算法.对于题中所给的待分类的人工序列和自然序列,本文都一一作了分类.接着,本文又对其它各种常见的分类算法进行了讨论,并着重从分类算法的稳定性上对几种方法作了比较.1 问题的重述(略)2 模型的条件和假设(略)3 符号约定na :任一给定序列中碱基A 的百分含量;ng :任一给定序列中碱基G 的百分含量;nt:任一给定序列中碱基T 的百分含量;nc :任一给定序列中碱基C 的百分含量.Gi :由某些具有相同属性的个体组成的类4 问题的分析和解答4.1 概述根据题意,我们首先要提取出一个序列的特征,然后给出它的数学表示,最后选择并构造基于这种数学表示的分类方法.对于一个任意一个DNA 序列,我们认为,反映该序列特征的方面有两个:1.碱基的含量,反映了该序列的内容;2.碱基的排列情况,反映了该序列的形式.4.2 基于碱基含量特征分类的模型首先,我们考虑采用序列中的A ,G ,T ,C 的含量百分比作为该序列的特征.这样的抽取特征的方法具有其生物学的意义.前面提到过,在不用于编码蛋白质的序列片断中,A 和T 的含量特别多些,因此以某些碱基特别丰富作为特征去研究DN A 序列的结构是具有可行性的.将序列中的A ,G ,T ,C 的含量百分比分别记为na ,ng ,nt ,nc ,则得到一组表征该序列特征的四维向量(na ,ng ,nt ,nc ).考虑到na ,nt ,ng ,nc 线性相关(na +ng +nt +nc =1),所以我们采用简化的三维向量(na ,nt ,ng )来进行计算.对于标号为i 的序列,记它的特征向量为X i .显然,任意序列的特征向量与一个3维空间的点对映.一般的判别问题为:设有k 个类别G 1,G 2,…,G k ,对任意一个属于G i 类样品x ,其特征向量X 的值都可以获得.现给定一个由已知类别的一些样品x 1,x 2,…,x n 组成的学习样本,要求对一个来自这k 个类别的某样品x ,根据其特征向量X 的值作出其所属类别的判断.在本题DNA 序列分类中,k =2,G 1=A ,G 2=B ,特征向量X 是三维的.学习样本共包含n =20个样本,其中10个属于A ,10个属于B .我们分别采用了欧氏距离(Euclid)分类模型,马氏距离(Mahalanobis)分类模型和Fisher 判别模型来对序列样本分类.391期韩轶平等:DN A 序列的分类4.2.1 欧氏距离(Euclid)分类模型在欧氏距离(Euclid)分类模型中,把每个样本视为三维空间的一个点,以其到不同集合几何中心的欧氏距离作为判据.具体的算法如下:1.计算属于A类与属于B类的10个样本点的集合各自的几何中心:C A=110∑10i=1X i C B=110∑20i=11X i 2.对于给定的样本点X i,分别计算该点到C A的欧氏距离D A=ûX i-C Aû,以及该点到C B的欧氏距离D B=ûX i-C Bû;3.判别准则如下:(1)若D A<D B,则将X i点判为A类;(2)若D A>D B,则将X i点判为B类;(3)若D A=D B,则将X i点判为不可判类;用上述算法对已知样学习样本A1—A20进行分类,结果是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%.用上述算法对未知的人工序列A21—A40进行分类,得到的结果是:A类:22,23,25,27,29,30,32,34,35,36,37,39;B类:21,24,26,28,31,33,38,40用上述算法对未知的自然序列N1—N182进行分类,得到的结果见附录.(略)用欧氏距离作为判据虽然简便直观,但存在着明显的缺陷:从概率统计的角度来看,用欧氏距离描述随机点之间的距离并不好.因此当待分类样本是随机样本,具有一定的统计性质时,这个模型并不能很好的描述两个随机点之间的接近程度.4.2.2 马氏距离(Mahalanobis)分类模型为了克服采用欧氏距离时的缺陷,我们采用马氏距离来代替欧氏距离.改进后的算法如下:设:三维总体G的均值为L=(L1,L2,L3)T,协方差矩阵为非奇异阵V3x3,则三维样本X 到总体G的马氏距离为:dm(X,G)=(X-L)T V-1(X-L)其中未知的L可用学习样本的均值来代替,协方差矩阵V可用学习样本的样本协方差矩阵来代替.将马氏距离用于判别模型,遵循判据如下:1.若dm(X,A)<dm(X,B),则判定x为A类;2.若dm(X,A)>dm(X,B),则判定x为B类;3.若dm(X,A)=dm(X,B),则判定x为不可判类;用上述算法对已知样学习样本A1—A20进行分类,结果是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%.用上述算法对未知序列A21—A40进行分类,得到的结果是:A类:22,23,25,27,29,30,32,33,34,35,36,37B类:21,24,26,28,31,38,39,40用上述算法对未知的自然序列N1—N182进行分类,得到的结果见附录.(略)40数 学 的 实 践 与 认 识31卷4.2.3 Fisher 准则分类模型在多维空间里分类的方法不仅仅是距离分类法一种,常用的Fisher 分类法就是另一种基于几何特性的分类法.在距离判别模型中,三维空间的样品X 被映射为一维的距离d 来作判断.Fisher 分类法的思想也是把三维空间的样本映射为一维的特征值y ,并依据y 来进行判别.具体的作法是先引入一个与样本同维的待定向量u ,再将y 取为X 坐标的线性组合y =u T x .而u 的选取.要使同一类别产生的y 尽量聚拢,不同类别产生的y 尽量拉开.这样,我们便可将样品X 到某一类G 的距离定义为y =u Tx 与y c =u Tc 之间的欧氏距离:L (X ,G )=ûy -y c û=ûu T(x -c )û其中c 为G 的几何中心.Fisher 分类的判据为:1若L (X ,A )<L (X ,B ),则判定x 为A 类;2若L (X ,A )>L (X ,B ),则判定x 为B 类;3若L (X ,A )=L (X ,B ),则判定x 为不可判类.根据对u 的要求,Fisher 提出了比较有效的选择算法,利用该算法,从学习样本中获得:u =(0.3365,-0.087,0.9377)TL (X ,A )=û0.3365*(na -0.2860)-0.087*(nt -0.1550)+0.9377*(ng -0.3830)ûL (X ,B )=û0.3365*(na -0.2940)-0.087*(nt -0.5010)+0.9377*(ng -0.1010)û 用上述算法对已知样学习样本A1—A20进行分类,结果仍然是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%.对于未知序列A 21—A 40进行分类,得到的结果是:A 类:22,23,25,27,29,34,35,36,37;B 类:21,24,26,28,30,31,32,33,38,39,40用上述算法对未知的自然序列N 1-N 182进行分类,得到的结果见附录.(略)4.2.4 三种距离分类模型的比较表1欧氏距离法马氏距离法Fisher 准则法30A A B 32A A B 33B A B 39ABB这三种模型在分类结果上有一定的区别,对于序列A30,A32,A33及A 39,三种方法给出了不同结果,见表1.对于这种情况,我们提出一个联合判定准则:对于任一个序列,当三种分类法结果完全一致时,认为它判别有效;若不然,当三种分类法结果不一致时,认为该序列为不可判类.对于三种方法都无法正确分类的A4序列,可认为是异常情况,不影响算法的性能.4.3 基于碱基位置特征分类的模型虽然上述采用碱基A,T ,G,C 在DN A 序列里的含量作为该序列的特征的方法有一定的生物学意义并且在DNA 序列的分类中获得了比较理想的结果.但是,用这种方法抽取特征,没有充分体现碱基排列的信息量,仅仅考虑碱基含量并没有体现碱基在序列中的排列情况.例如,序列(AT GC)与序列(CGT A)有着相同的碱基含量,他们的特征向量是完全一样的,并不能体现在排列结构上的不同.因此,直接从序列本身的碱基排列顺序来考察序列就成为一种更加合适的提取特征的方式.因此采纳数值序列中的相关性分析设计了算法.411期韩轶平等:DN A 序列的分类通常任意两个数值序列的相关性都是通过这两个序列的相关函数来刻画的.由于本题中的DNA 序列是非数值的序列,同时无法将碱基按通常的方式进行数值化,因而刻画任意两个序列的相关程度的变量需要重新定义.表2ªA G T C A 1000G 0100T 0010C14.3.1 定义一:相关运算“á”对于任意碱基m 和n ,相关运算“m án ”的值由表2定义:4.3.2 定义二:哑元O除四个碱基外,我们另行定义一个哑元O ,规定任意碱基与哑元作相关运算的结果都为0.4.3.3 定义三:序列的延拓对于任意一个长度为N 的序列A i (其中0≤i <N ),定义它的延拓为如下一个无限序列:A +j :当0≤j <N 时,A +j =A j ;当-∞<j <0及N ≤j <∞时,A +j =O .即在该序列的左右两端均用哑元O 填充.4.3.4 定义四:序列的相关度对于任意的两个序列A N ,B M ,定义序列A 和序列B 的相关序列S i 为:S i =∑∞k =0A+k +2-iáB +k (0F i F n +m -1) 定义序列B 对序列A 的相关度为:S =M A X {S i } (0F i F n +m -1) 例如对于序列A {T ,C ,T }与序列B {A ,G ,T ,C ,T ,C },相关序列及相关度的计算步骤如下:第一项:S 0=A 2ªB 0=T ªA =0…A +-1A +0A +1A +2A +3A +4A +5A +6A +7A +8……O T C T O O O O O O ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…第二项:S 1=A 1ªB 0+A 2ªB 1=T ªG +C ªA =0…A +-2A +-1A +0A +1A +2A +3A +4A +5A +6A +7……O O T C T O O O O O ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…第三项:S 2=A 0ªB 0+A 1ªB 1=T ªT +G ªC +A ªT =1…A +-3A +-2A +-1A +0A +1A +2A +3A +4A +5A +6……O O O T C T O O O O ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…以下类推得(表略):第四项:S 3=A 0áB 1+A 1áB 2+A 2áB 3=T áC +C áT +T áG =042数 学 的 实 践 与 认 识31卷第五项:S 4=A 0áB 2+A 1áB 3+A 2áB 4=T áT +C áC +T áT =3第六项:S 5=A 0áB 3+A 1áB 4+A 2áB 5=T áC +C áT +T áC =0第七项:S 6=A 0áB 4+A 1áB 5=C áC +T áT =2第八项:S 7=A 0áB 5=T áC =0第八项:S 7=A 0ªB 5=T ªC =0…A +-8A +-7A +-6A +-5A +-4A +-3A +-2A +-1A +0A +1……O O O O O O O O T C ……O O O A G T C T C O ……B +-3B +-2B +-1B +0B +1B +2B +3B +4B +5B +6…两序列的相关度为S =M AX {S i }=S 5=3;4.3.5 定理一:任意给定三个序列S ,A ,B ,若A 与S 的相关度大于B 与S 的相关度且B 与A 等长,则A 与S 属同一类的可能性大于B 与S 属同一类的可能性4.3.6 基于相关度的分类算法:利用上述概念,我们构造了一个基于相关度的分类算法,如下:1.对于序列A21—A40,N1—N182中的任意一个序列,将其与序列A 1—A20中的每一个依次作求相关度的运算,结果记为SS1,SS2,SS3……SS20;2.对于前十个相关度,求出它们的平均相关度SA =(SS 1+SS 2+……SS 10)/10,并定义其为与A 类的相关度;3.对于后十个相关度,求出它们的平均相关度SB=(SS11+SS12+……SS20)/10,并定义其为与B 类列的相关度;4.记W =SA /SB ,根据定理一,判别依据为:若W>1,则将X 点判为A 类;若W<1,则将X 点判为B 类;若W =1,则将X 点判为不可判类;5.W 可作为衡量该序列分类的可信性的一个标准.显然当W 越接近于1,该序列与A 类的相关性和与B 类的相关性区别就越小,分类结果就越不可信;反之,W 与1差的越远,该序列与A 类的相关性和与B 类的相关性区别就越小,分类结果就越可信.这个变量对我们下面带有反馈的相关度分类算法具有重要的意义.用上述算法对已知样学习样本A1-A20进行分类,得到的结果是分类完全正确,A,B 类可以完全分开,准确率达到100%.对于未知序列A 21—A 40进行分类,得到的结果是:A 类:222325272934353637B 类:2124262830313233383940用上述算法对未知的自然序列N 1—N 182进行分类,得到的结果见附录(略).4.3.7 相关度分类算法的改进——带有反馈的分类算法上述的相关度分类算法是一次性学习过程,学习的过程只体现在学习样本的过程中,而在对未知样本分类的过程中没有对已分类情况作出修正,即是属于无反馈型的学习.然而,采用反馈型的学习过程会有更好的分类结果.一般说来,带反馈的算法以神经网络算法最具有代表性.但对于一般的分类算法而言,可以采用多次反复分类的办法来实现反馈的目431期韩轶平等:DN A 序列的分类44数 学 的 实 践 与 认 识31卷的.针对上述的相关度分类算法,我们设计了如下带反馈的相关度分类算法:1.对全部182个样本进行相关度分类;2.计算全部182个W的值3.在所有被判为A类的待分类序列中,取出W值最大的一个,作为标准学习样本,加入到A类的标准样本中(若有多个,则全部加入到A类中,若无被判为A类的序列,则保持A类标准学习样本不变.)4.在所有被判为B类的待分类序列中,取出W值最小的一个,作为标准学习样本,加入到B类的标准样本中(若有多个,则全部加入到B类中,若无被判为B类的序列,则保持B类标准学习样本不变.)5.重复对剩余的待分类序列进行相关度分类,并按上述步骤不断扩充标准学习样本,直至全部的待分类序列都被加入到标准学习样本中.我们用新算法编程对182个序列进行了重新分类,得到了不同于原无反馈分类算法的结果,而且新的分类结果的W值明显与1离开的更大,这使我们有理由相信,反馈对算法的性能有一定的改进.5 进一步研究的问题5.1 基于生物学的特征抽取我们上述的两种特征抽取方法更多的是从纯数学眼光来研究序列的特征.除此之外,我们还可以考虑DNA序列在生物学意义下的数学特征.一个比较容易考虑到的方面便是三联体在DNA序列中的出现.由于具有三联体形式的遗传密码子对蛋白质的合成具有决定性作用,有理由认为它在序列中的出现体现了该序列的本质特征.题中没有明确的指明所给的序列是全序列还是序列片断,我们无法对三联体在序列中的出现位置进行定位,一种代替的方法是将序列假定为全序列,从第一个碱基开始三个三个一组的划分为密码子,然后统计64个密码子的出现概率,形成64维的向量.再使用距离分类等模型,或利用生物学的知识先将64维向量的某几维合并,降维后再分类.我们编程演算后,觉得该种分类方法比较依赖于密码子的划分,一位碱基的缺失或错位均会造成分类错误,所以必须加以修改,一条思路是尝试将序列移一位或二位再划分密码子,由于时间所限,没有进一步研究.5.2 基于人工神经网络的模型人工神经网络是一种带反馈的自适应算法,随着计算机速度提高被广泛应用.对于本题的情况采用神经网络模型是合适的,它可以在给定特征向量的情况下代替一般的距离分类模型.对于基于碱基含量的特征向量(na,nt,ng),构造了如下的反向传播算法:1.网络简单的分为两层,一层为输入层,有3个单元,分别为权重a,b,c;一层为输出层,有1个单元,为判别结果;各单元均为Sigmo id型函数激励.2.设定(a,b,c)的初值为(0,0,0);A类学习样本的标准输出定为1;B类学习样本的标准输出定为03.对每一个学习样本,计算S=a*na+b*nt+c*ng作为输出;4.将学习样本的标准输出与S相减,所得的差用来指导权重的改变,权重的改变遵从Widro w-H off准则.5.反复学习样本,到权重值稳定收敛.6.代入待分类样本,分类.用上述算法所得到的结果与普通的分类模型没有区别.事实上当权值稳定收敛后,S =a *na +b *nt +c *ng 就是特征空间的一张(超)平面,从这一点来说,人工神经网络模型与一般的距离分类模型得到的结果没有两样.考虑到人工神经网络模型还存在结果对初值有较强敏感性,缺乏选择理想步长的准则和收敛性等问题,在一定的时间内,我们无法较好的解决这些问题,所以我们也没有作进一步讨论.6 算法的稳定性前面比较算法的时候,曾多次提到分类算法的稳定性问题.分类算法的稳定性是除了算法的成功率之外的另一较重要的指标.所谓分类算法的稳定性,是指算法在样本发生了轻微变化时作出正确判别的能力.对于本题,是指算法在样本序列发生了轻微的碱基缺失,错位,错排情况时作出正确判别的能力.因为本题要求我们研究的是DNA 序列粗粒化和模型化的问题,所以分类时是对序列的整体特征进行区分.局部碱基的组成变化应该对算法的分类结果没有影响.我们所提出的几个模型均较好的满足了这一点.参考文献:[1] 孙乃恩,孙东旭,朱德煦.《分子遗传学》.南京大学出版社,1996.[2] 白其峥.《数学建模案例分析》.海洋出版社,2000.[3] 潘德惠.《数学模型的统计方法》.辽宁科学技术出版社,1986.[4] 阎平凡,黄端旭.《人工神经网络》.安徽教育出版社,1991.[5] 李振刚.《分子遗传学概论》.中国科学技术大学出版社,1990.[6] Du ane Hanselman.Bruce Littlefield 《M asterin g M AT LAB:a comp rehensive tutorial and reference 》.Prentice Hall,1996.Classification of DNA SequencesHAN Yi -ping , YU Hang , LIU Wei(Zhejiang U niv.,Hang zho u 310027)Abstract : T his paper pr oposes sever al metho ds fo r the classificatio n of DN A sequences.W e noticed that differ ent sequences hav e different alkali r adicals and t her efo re set up models using Euclidean distance ,M ahalano bis distance a nd F isher principle .We also no ticed that differ ent sequences hav e differ ent permutat ions o f alkali r adicals a nd an alg or ithm using r elativ ity analy sis is pr oposed.F ur ther w e discussed a r elativity analy sis alg or it hm w ith feed-back mechanism.A s to t he natural and art ificial data g iv en our alg or ithms w o rk well and fine r esults ar e giv en .A t last sever al o ther co mmon algo rithms are co mpar ed ,especia lly o n theirstabilities .451期韩轶平等:DN A 序列的分类。
DNA序列分析方法的研究
DNA序列分析方法的研究DNA序列分析是生物学领域中的重要问题之一,因为DNA序列包含了基因表达、物种演化和生命起源等诸多方面的信息。
因此,开发高效的DNA序列分析方法是生物学研究的关键之一。
本文将从DNA序列分析方法的常见分类、研究现状和挑战以及发展趋势几个方面进行探究。
一、DNA序列分析方法的常见分类DNA序列分析方法主要可以分为两类:基本分析和高级分析。
1. 基本分析基本分析包括了序列比对、序列注释、序列可视化等几个方面。
其中,序列比对是指将一组新的序列与一组已知的序列进行比较,以了解它们之间的相关性。
序列注释是将DNA序列的信息(例如基因位点、蛋白质编码等)与外部数据库中的信息进行关联。
序列可视化则是将DNA序列以图形化的方式呈现。
2. 高级分析高级分析包括了序列聚类、序列演化、序列预测等几个方面。
其中,序列聚类是将序列按照其相似度进行分组,以便识别相同的序列。
序列演化是通过DNA序列推断物种之间的演化关系,以及推测这些演化过程发生的时间和模式。
序列预测则是基于DNA序列构建生物学模型,在不同应用场景中进行生物学预测。
二、DNA序列分析方法的研究现状和挑战DNA序列分析方法涉及到的生物信息学问题有:序列存储、数据提取、序列比对、定位基因突变、预测功能等,都具有多样化和复杂性的特点。
随着现代测序技术的不断普及,大量复杂DNA序列的快速处理越来越成为一个实际需求。
虽然基于大数据等新技术的DNA序列分析已经成为一种趋势,但仍然存在一些问题和挑战,具体如下:1. 数据质量和预处理DNA序列在测序过程中,可能出现像碱基置信度变差等清除方面问题。
此外,也存在在大规模比对过程中,带有不确定度的区域较难处理,泛指标本质也存在困扰。
因此,如何实现高质量的数据、相应的预处理工作仍然是一个挑战。
2. 数据集的选择对于一个给定生物问题,可以与之相应的数据集通常被认为是决定该研究方向是否行之有效的关键因素之一。
由于数据来源的多样性和规模的巨大性,如何进行评估、收集和整合数据集仍然是一个问题。
最新A题DNA序列的类别(南昌大学全国一等奖)
用判别分析的方法判定DNA序列的类别摘要判别分析法是多元统计分析中的重要内容之一。
近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。
本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。
通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(<1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。
关键词:DNA序列、Fisher判别法、判别函数、错判率。
一、问题提出1.背景人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。
对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
2.问题有20个已知类别的人工序列:A类,B类。
1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。
2..对另给出的182个自然序列进行分类。
二.问题的分析本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:1)来源于已知样本。
2)具有给予未知类别的DNA序列分类的功能。
3)能较好的接受检验样本的检验。
全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。
DNA序列分析方法及应用
DNA序列分析方法及应用随着人类基因组计划的完成,人们对基因组的研究变得越来越深入。
在基因组研究中,DNA序列分析是一项非常重要的技术。
DNA序列分析是指对DNA序列进行分析,从中发现或确认相关的生物学特性。
大致可以分为以下几个步骤:1. 序列获得DNA序列可以通过多种方法获得,包括Sanger测序、Next Generation Sequencing (NGS),还有第三代测序等。
Sanger测序是一种最早也是最常用的测序方法。
这种方法通过不断补充碱基链来构建DNA序列。
NGS技术相对于Sanger测序新一些,但也已经广泛应用于DNA序列分析中。
NGS技术可以同时测序大量的DNA片段,往往需要进行大量的数据预处理。
第三代测序则是最新的一种DNA测序技术,其基于单分子二代测序原理,具有低样本、快速、高通量等特点。
2. 数据预处理DNA序列数据通常需要进行数据预处理。
数据预处理的目的是去除低质量的序列、过滤冗余序列、对序列进行拼接和修复错误等。
目前存在的DNA序列数据处理软件很多,例如Trimmomatic、Prinseq、BBduk、Cutadapt等。
3. 序列比对DNA序列比对是指将已知的DNA序列与未知的DNA序列进行比对,从而发现基因组中已知的特定区域。
这是一项非常关键的技术,可用于研究基因功能、基因表达调节等。
常用的DNA序列比对软件包括Bowtie、BWA、BLAST等。
4. 序列注释DNA序列注释是指将已知基因序列与未知的DNA序列进行分析,从而确定DNA序列中的基因和调节元件等重要区域。
这个过程通常涉及到对DNA序列进行基因识别、蛋白质预测、功能注释等分析。
常用的DNA序列注释软件包括GeneMark、Glimmer、Augustus、Prodigal、PROSITE、KEGG、GO等。
DNA序列分析的应用非常广泛。
以下列出一些典型的应用:1. 基因组功能注释通过分析DNA序列中的基因、转录因子结合位点和其他重要元件,可以确定DNA序列的功能信息,加深对生物学过程的理解。
dna分类的原理及应用
DNA分类的原理及应用原理DNA分类是通过对DNA序列进行分析和比较来确定物种和个体之间的差异和相似性的方法。
它基于DNA的遗传信息和进化过程,通过比较DNA序列的相似性程度来确定物种之间的亲缘关系和进化关系。
DNA分类的原理主要包括以下几个步骤:1.DNA提取:首先从待分类的样本中提取DNA,在实验室条件下进行处理和净化,以获取高质量的DNA样本。
2.PCR扩增:利用聚合酶链式反应(PCR)技术,选择特定的DNA片段进行扩增。
这些DNA片段通常是高度保守的基因区域,如线粒体DNA或核糖体DNA。
3.DNA测序:将扩增后的DNA片段进行测序,获取DNA序列信息。
目前,高通量测序技术的发展使得DNA测序变得更加快速和经济高效。
4.数据分析:将测序获得的DNA序列进行比对和分析。
常用的方法包括序列比对、相似性评估、系统发育分析等。
通过比较样本之间的DNA序列差异和相似性,可确定物种分类和进化关系。
应用DNA分类的应用非常广泛,涵盖了生物学、医学、农业、环境科学等多个领域。
以下是一些常见的应用场景:1.物种鉴定:DNA分类可用于识别和鉴定不同物种之间的差异和相似性。
对于复杂的生物样品或濒临灭绝的物种,DNA分类可以提供更精确和可靠的鉴定结果。
2.犯罪侦查:DNA分类在刑侦领域有重要的应用。
通过分析凶案现场的DNA样本与嫌疑人的DNA样本之间的关系,可以提供有力的证据来确定犯罪嫌疑人。
3.医学诊断: DNA分类可用于疾病的诊断和预测。
对于一些遗传性疾病,通过检测与疾病相关的基因突变,可以对患者进行早期诊断、预防和个体化治疗。
4.农业育种:DNA分类在农业生产中起着重要的作用。
通过对农作物和家畜的DNA序列比较和分析,可以筛选出高产、抗病或具有其他有益性状的品种,实现农业产量的提高和质量的保证。
5.生物多样性保护:DNA分类是研究生物多样性和保护濒危物种的重要工具。
通过对不同物种的DNA序列进行比较和分析,可以更准确地了解物种的分布、遗传多样性和进化关系,为生物多样性保护提供科学依据。
简化基因组测序分类
简化基因组测序分类随着基因组测序技术的快速发展和进步,生物学领域的研究逐渐深入和广泛。
同时也产生了大量的数据和信息,这些数据和信息需要进行分类和整理,以便生物学家们更好地对其进行研究和应用。
基因组测序分类是生物学领域中一个非常重要的领域,主要是将已知的DNA序列或未知的DNA序列进行分类和整理。
目前,有几种不同的分类方法,可以根据不同的基因组测序数据类型和应用需求来选择合适的方法。
1. 基于物种分类基于物种分类是一种基于生物学上的分类方法,通常用于将不同的生物物种中的DNA进行分类和整理。
该方法使得生物学家们能够更好地研究自然界中不同生物的遗传学和进化学特征。
这种分类方法常用于研究分子生态学、分子系统学和生物地理学等领域。
这种方法主要基于比对DNA序列与数据库中已知的DNA序列,将未知的DNA序列与已知的物种进行比对,从而确定这个未知的DNA序列属于哪个物种。
例如,将人类DNA序列与已知的人类DNA 序列数据库进行比对,可以快速确定DNA序列所属的个体。
基于功能分类方法是将基因组中的DNA序列基于其生物学功能进行分类。
这种方法主要应用于研究不同基因和蛋白质的生物学特征和功能,以及不同物种之间的相似性和差异性。
这种分类方法通常是将相似的DNA序列聚集在一起,从而形成一个簇。
聚类方法有许多种,包括k-means聚类,层次聚类和基于网络的聚类等。
这种分类方法适用于没有先验知识或没有已知基因型的情况下,对新基因或新物种进行分类。
该分类方法通常基于DNA序列中的相同或相似部分来分类,这些相似部分可以是基因、启动子或重复元件等。
在基于相似度的分类中,DNA序列之间的相似性通常使用比对算法如BLAST(Basic Local Alignment Search Tool)进行计算。
基于元件分类主要是将DNA序列按照不同的DNA结构元件进行分类,例如基因、转录因子结合位点、剪接位点、启动子、长度可变区域等等。
这种分类方法通常基于不同元素之间的生物学特征和功能,以及其遗传学变异性来进行分类。
DNA序列分类
DNA序列分类摘要本文以题目的有关数据为资料,对如何对DNA序列分类进行研究,针对各个问题,我们分别建立了欧氏距离分类模型、马氏距离分类模型、Fisher分类模型多个数学模型,经过严密的理论论证,精确的计算,很好的解决了DNA序列归类的问题。
针对问题一,我们首先根据的相关知识/理论,建立了欧式距离模型模型。
为了解决DNA序列分类,我们运用统计、最优化、特征值提取等数学方法,从已知样本序列中提炼出能较好代表两类特征的关键字符串,我们可以得到量化的分类标准,对所给的DNA序列进行分类。
在问题二中,我们同样采用了问题一中的三种模型,进行检验。
在求解的过程中,我们在数据的处理上不可避免的存在不少误差,我们通过探讨研究,给出了误差分析,分析了其中的误差产生的来源,尽量避免由于误差所造成求解的错误,进而得出了一个较好的方案。
我们还对模型进行改进,通过多个模型的比较,使得模型更加合理,更加切合实际。
从而较好的解决了对各种DNA序列的分类。
关键词:序列分类;特征分析;分类模型;最优分类一、问题的重述㈠背景知识1、DNA序列的概况从2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
2、DNA序列排列原理DNA序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,在DNA全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性。
㈡问题作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。
dna分类概述
dna分类概述
DNA,或称脱氧核糖核酸,是一种遗传物质,它携带着生物体发育和功能的指令。
它由长
链核苷酸组成,由一种叫做脱氧核糖的糖、一个磷酸基团和一个含氮碱基组成。
DNA中有四种
含氮碱基:腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。
这些碱基的特定序列
决定了DNA中包含的遗传信息。
DNA可以以各种方式分类。
DNA分类的一种方法是基于其结构。
DNA结构有两种主要类型:双螺旋和单链。
双螺旋DNA是最常见的DNA形式,其特征是两条互补的链以螺旋结构相互缠绕。
另一方面,单链DNA是一条不与互补链配对的线性核苷酸链。
DNA分类的另一种方法是基于其功能。
根据其功能,有几种类型的DNA,包括:
*基因组DNA:这是在细胞核中发现的DNA,是遗传信息的主要来源。
它包括编码区域和非
编码区域。
*线粒体DNA:这是在细胞线粒体中发现的一小块圆形DNA。
它与细胞核中发现的基因组DNA分离,并完全从母亲那里遗传。
*质粒DNA:这是在细菌和一些真核细胞中发现的一小块圆形DNA。
它与基因组DNA分离,
可以独立复制。
质粒DNA通常用于分子生物学研究和生物技术。
*卫星DNA:这是一种在染色体着丝粒区发现的重复DNA。
它的特点是高度重复,经常用于
细胞遗传学研究。
*核糖体DNA:这是一种在细胞核糖体中发现的DNA。
它参与蛋白质的合成,经常用于分子
生物学研究。
DNA 序列的分类
欧 氏 距 离描述随 机点之 间的距离 并 不好4因 此 当待 分 类样 本是随 机样本3具有 一定的 统计
性 质 时 3这 个 模 型 并 不 能 很 好 的 描 述 两 个 随 机 点 之 间 的 接 近 程 度 4
!"#"# 马氏距离%RSTS)SUVW*X,分类模型 为了克 服采用欧氏 距离 时的 缺陷3我们 采 用 马氏 距离 来代 替欧氏距离4改进 后 的 算 法
对 于任意一个长度为 : 的序列 ;<=其 中 ,><
? :@%定 义 它 的 延 拓 为 如 下 一 个 无 限 序 列 1
;A B1当 ,>B?: 时%;AB C;BD当EF?B?,及 :>B?F 时%;A BC9! 即在该序列的左右两端均用哑元 9填充!
-./.- 定义四1序列的相关度
8类 5万A6方3AJ数3A据O3AP3F63FP3FK3J9
用上述算法对未知的自然序列 Q6IQ6PA进行分类3得到的结果见附录 "%略,
B期
韩轶平等<‘[W 序列的分类
VB
!"#"$ %&’()*准则分类模型 在多维空间里分类的方法不仅仅是距离分类法一种+常用的 ,-./01分类法就是另一种
基于几何特性的分类法2在距离判别模型中+三维空间的样品 3 被映射为一维的距离 4来 作 判断2,-./01分类法的思想也是把三维空间的样本映射为一维的特征值 5+并依据 5来进 行判别2具体的作法是先引入一个与样 本 同维 的 待 定向 量 6+再 将 5取为 3 坐 标的线 性组 合 576892而 6的 选 取2要 使 同 一 类 别 产 生 的 5尽 量 聚 拢+不 同 类 别 产 生 的 5尽 量 拉 开2 这样+我们便可将样品 3 到某一类 :的距离定义为 57689与 5;768;之间的欧氏距离<
基因条形码技术在生物分类学中的应用
基因条形码技术在生物分类学中的应用生物分类学是一门旨在研究生物物种分类、演化和关系的学科。
随着科技的不断发展,传统的基于形态学特征进行物种分类的方法已经逐渐被基于遗传学的方法所取代。
其中最常见的包括基因测序和基因条形码技术,而本文将介绍后者在生物分类学中的应用。
什么是基因条形码技术?基因条形码技术是一种基于DNA序列特征进行物种鉴定和分类的方法。
这个方法首先将目标区域的DNA进行PCR扩增,然后获取其DNA序列,这样就得到了一个包含该物种特征序列的长度固定、可重复、高变异的DNA片段。
理论上,不同的物种应该拥有唯一的一段这样的DNA序列,就像条形码一样,因此这个方法也被称为“DNA条形码”。
基因条形码的优点相比于传统的物种鉴定方法,基因条形码具有明显的优点:1. 高效准确:基因条形码方法的鉴定速度非常快,对于运用更加高效、准确,而且不需要特别繁琐的操作操作即可对大量物种进行分类。
2. 对不同器官的适应性:基因条形码的方法可以对不同器官的DNA进行扩增,得到具有代表性的DNA序列,对生物物种的分类起到了很好的匹配作用,适用性十分广泛。
3. 不受外界因素的影响:基因条形码的方法基于基因序列,而基因序列往往对于不同环境的影响比较小,所以不受外界因素的影响,具有更好的稳定性和可重复性。
基因条形码的应用基因条形码技术在生物分类学中的应用十分丰富。
以下列举几个例子:1. 垃圾场污染物种的鉴定垃圾场等环境对于生物物种的影响非常大,包括对生物物种数量及种类等方面产生了不利影响,而此时使用传统的鉴定方法往往很难达到准确的判断。
然而,基因条形码技术可以以更快更准确的方式获取DNA序列,从而更好地进行物种的鉴定和分类,可以更好地实现对垃圾场污染物种的鉴定。
2. 维管植物的分类鉴定基于形态学的方式往往无法进行维管植物子阳性植物的分类,假如使用基因条形码技术,就可以通过对不同的植物品种进行鉴定,来实现对维管植物子阳性植物的分类鉴定。
分子生物学技术在微生物鉴定和分类中的应用
分子生物学技术在微生物鉴定和分类中的应用近年来,随着分子生物学技术的不断发展,微生物鉴定和分类的方法也在不断更新。
传统的微生物鉴定和分类技术主要依赖于形态和生化特性进行检测,这种方法需要耗费大量的时间和精力,并且存在误判的问题。
而分子生物学技术,具有技术先进、灵敏度高、特异性强和快速等特点,因此被广泛应用于微生物鉴定和分类。
1. PCR技术在微生物鉴定和分类中的应用PCR技术是一种基于DNA扩增的技术,具有敏感、快速、高效等特点。
在微生物鉴定和分类中,PCR技术被广泛应用于细菌、真菌和病毒等微生物的检测。
在细菌的鉴定和分类中,PCR技术可以利用细菌特异性DNA片段进行扩增,从而实现特异性检测。
例如,肺炎链球菌是引起肺炎和中耳炎的主要病原菌之一,传统的鉴定方法需要通过培养和生化特性进行检测,而PCR技术可以通过扩增肺炎链球菌的DNA片段进行特异性检测,不仅提高了检测的敏感性和特异性,还可以节省时间和精力。
在真菌的鉴定和分类中,PCR技术也被广泛应用。
例如,快速鉴定真菌的方法是基于ITS(内转录间隔区)序列扩增的PCR技术,通过对ITS序列进行PCR扩增和测序,可以快速鉴定真菌的物种和亚种,同时也可以对真菌的种类进行分类。
2. 序列分析技术在微生物鉴定和分类中的应用序列分析技术是一种基于DNA序列的分析方法,通过对DNA序列进行比对和分析,可以快速鉴定和分类不同种类的微生物。
在细菌的鉴定和分类中,序列分析技术主要基于16S rRNA基因的序列比对进行鉴定和分类。
16S rRNA基因是所有细菌都具有的基因,因此可以通过对16SrRNA基因的序列进行分析,快速鉴定和分类不同种类的细菌。
同时,由于16S rRNA基因在不同细菌中的序列差异较大,因此可以利用这些序列差异进行微生物的分类和鉴定。
在真菌的鉴定和分类中,序列分析技术主要基于ITS序列的比对。
与16S rRNA基因类似,ITS序列也是真菌中高度可变的DNA序列,因此可以通过对ITS 序列的比对和分析,快速鉴定和分类不同物种的真菌。
DNA序列分类模型
DNA序列分类模型
模型假设
1.假设所讨论的DNA序列都是从DNA序列中任意截取的一部分;
2.DNA,RNA在传递信息及整个蛋白质合成过程中,遗传密码的传递严格遵循中心法则,不考虑基因变异情况,也不考虑因其他任何因素而导致DNA,RNA的损坏问题;
3.根据碱基互补配对原则,将与RNA上密码子对应的DNA伤相邻的3
个剪辑成为DNA上的密码子;
4.假设任一给定序列中碱基A、G、T、C的百分含量已知,na、ng、nt、
nc分别表示任一给定序列中碱基A、G、T、C的百分含量
问题分析
我们首先要提取出一个序列的特征,给出它的数学表示,最后选择选择基于这种数学表示的分类方法。
对于任何一个DNA序列,我们认为,反应该序列特征的方面为碱基的含量,反映了该序列的内容。
在建立基于碱基含量特征分类模型,确定最终DNA序列的分类。
模型建立
首先,我们考虑采用序列中的A,G,C,T的含量百分比作为该序列的特征。
将序列中的A,G,T,C的含量百分比分别记为na,ng,nt,nc,则得到一组表征该序列特征的四维向量(na,ng,nt,nc),由于na,ng,nt,nc之间具有线性相关(na+ng+nt+nc=1),所以我们采用简化的三维向量(na,nt,ng)来进行计算。
为了有效地进行分类识别,首先要根据被识别的对象产生一组基本特征,并对基本特征进行变换,得到最能反映分类本质的特征。
在列举了尽可能完备的特征参数集之后,借助数学的方法,使特征参数的数目减到最小。
我们通过研究4个字符A,T,C,G在DNA序列中的排列、组合特性,主要是研究字符和字符串的排列在序列中出现的频率,从中提取DNA序列的结构特征参数。
DNA条形码技术在动植物种群分类中的应用
DNA条形码技术在动植物种群分类中的应用DNA条形码技术是一种基于DNA序列的快速、准确鉴定生物物种的方法。
通过选择物种特异性的保守基因片段,对样本进行测序、比对和分析,可以准确地鉴定物种。
DNA条形码技术的应用已经在动植物的种群分类中取得了重大突破,对于生物多样性研究、保护和管理具有重要意义。
DNA条形码技术的核心是选取适合的基因片段作为“条形码”。
目前常用的DNA条形码基因包括线粒体COI基因(动物)和核rbcL、matK基因(植物)。
这些基因片段具有高度保守性和变异性,可以满足种群分类的需求。
对于动植物而言,DNA条形码技术具有一些独特的优势。
首先,DNA条形码技术可以准确地鉴定物种。
传统的物种鉴定依赖于形态学特征和分子学的方法,但对于一些形态相似的物种,或是特定生长阶段的物种,鉴定会面临困难。
而DNA条形码技术可以通过对物种特异性基因片段的测序,准确地鉴定物种。
这种精准度不仅可以应用于已知物种的鉴定,也可以发现和描述新物种,对于生物多样性研究具有重要意义。
其次,DNA条形码技术可以帮助研究种群亲缘关系和遗传多样性。
基于DNA条形码的测序和分析,可以得到物种间和种群内的遗传差异信息。
通过比对不同物种的DNA条形码,可以揭示物种间的亲缘关系,推测物种的进化历史。
同时,对于同一物种的不同种群,可以通过比对DNA条形码鉴定出它们之间的遗传差异,从而为生物多样性保护和管理提供科学依据。
第三,DNA条形码技术可以应用于物种鉴定、管控和追溯。
在保护生物多样性和管理野生动植物资源中,准确的物种鉴定是至关重要的。
通过将DNA条形码技术应用于物种鉴定,可以帮助快速识别并防止非法捕捞、猎杀和贸易等活动,提高野生动植物的保护力度和效果。
同时,在食品安全和质量管理中,DNA条形码技术也可以用于监测和追溯食品来源,确保消费者的权益和健康。
综上所述,DNA条形码技术在动植物种群分类中的应用已经取得了重大突破。
它不仅可以准确地鉴定物种,还可以揭示亲缘关系和遗传多样性,为生物多样性研究、保护和管理提供科学依据。
DNA序列分类
实验29 DNA序列分类实验目的学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。
知识扩展DNA序列分类DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。
DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。
主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。
DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。
其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。
FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。
欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
公式在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..nxi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式.欧氏距离判别准则如下:若dA<dB,则将Xi点判为A类若dA>dB,则将Xi点判为B类若dA=dB,则将Xi点判为不可判别点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2002203210
作者简介:刘志(1965—
)男,山东东平人,空军工程大学工程师文章编号:100123857(2002)Sup.20114203
D NA 序列的一种分类方法
刘 志
(空军工程大学导弹学院,陕西西安713800)
摘 要:基于小波变换和相关技术,提出了一种DNA 序列的分类方法.首先将DNA 序列转换成数字序列,然后对此序列进行Matlab 快速分解,计算未知类别序列与已知类别序列的相关系数,由此判定序列的类别.结果表明,该方法是切实可行的.
关键词:DNA 序列;相关技术;小波变换
中图分类号:O357 文献标识码:A
2000年6月,人类基因组计划中DNA 全部草图完成,预计2002年可以完成精确的全序列图,此后人类将拥有一本记录着自己生老病死及遗传进化的全部信息的“天书”.这本大自然写成的“天书”是由4个字符A ,T ,C ,G 按一定的顺序排成的长约30亿的序列,其中没有“断句”也没有“标点符号”,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂.破译这部世界上最巨量信息的天书是21世纪最重要的任务之一.虽然人类对这部天书知之甚少,但也发现了DNA 序列中的一些规律和结构.例如,在全序列中有一些是用于,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸.此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等.本文利用小波变换和相关技术,提出了一种DNA 序列的分类方法.
1 Matlab 快速算法
信号的小波分析相当于对信号加上一个可调的时—频窗.Matlab 根据多分辨分析的观点,利用共轭正交镜像滤波器,给出了离散小波变换的金字塔算法,使信号快速分解和重构得以实现.在Matlab 算法基础上,进一步对高频信号进行分解,将信号分解到不同的频带上,滤波时根据需要,选取所需频带内的信号进行重构,就可以完成信号的多通带滤波.小波变换不改变信号所引起的小波变换系数的极值点的位置,而噪声所引起的小波变换系数的极值点主要表现在第一、二尺度上,且随着尺度增大,小波系数的极值点越来越少.由第三级小波变换系数重构的信号的自相关函数的极大值的位置和原函数的自相关函数的极大值的位置完全相同,这是本文所提方案的依据.由第三级小波变换系数重构的信号的自相关函数图形比较光滑,而且,没有影响自相关函数的极大值的位置.此结论对信号检测非常有用.
根据多分辨分析理论,在二进正交小波基下,Matlab 快速算法[1]为
A k
j f =∑n ∈Z h (n -2k )A n
j -1f , j =1,2,…,J .第30卷 专 辑
陕西师范大学学报(自然科学版)Vol.30 Sup. 2002年5月Journal of Shaanxi Normal University (Natural Science Edition )May.2002
D k
j f =∑n ∈Z g (n -2k )A n j -1f , k =0,1,…,2-j N - 1.(1)
其中h (n )和g (n )分别是由正交尺度函数基和正交小波基确定的低通和高通滤波器的冲击
响应,g (n )=(-1)1-n h (1-n ),式中j 表示分解级数,N 为第j 级中具有k 点的信号逼近表
示,D k j f 为信号的细节表示,A n 0f 不断分解下去,得到的序列{D k 1f ,D k 2f ,…,D k j f ,A k 1f }就是f (n )的二进正交小波变换,重构公式为
A k
j -1f =∑n ∈Z h (k -2n )A k j f +∑n ∈Z g (k -2n )D k j f .(2)
2 D NA 字符串特征分析
从所给的DNA 序列观察发现,很多字符串重复出现的频率很高,而且有些字符串在A 类和B 类中出现的次数有很明显的差异,这就是说把某些字符串可以作为A 、B 类的一个分类标准.所以应对A 、B 两类已知样本做统计分析,找出A 、B 两类已知字符串的类内相关性和类间
差异性,然后选定一个判别准则,判别未知类字符串的类别[2].
3 D NA 分类方法
(ⅰ)在DNA 序列中,令A =0,T =3,C =1,G =2,则DNA 序列就转换成DNA 数字序列.
(ⅱ)对DNA 数字序列进行Matlab 快速算法.
(ⅲ)计算未知类别序列第三级Matlab 分解系数与全部已知类别序列第三级Matlab 分解系数的相关系数[3].找出相关系数的最大值,由相关系数最大值的大小,判定未知序列的类别.4 D NA 分类结果
对于20个已知类别的人工制造的序列,其中序列标号1—10为A 类,11—20为B 类.作为对DNA 序列的结构的尝试,对另外20个未标明类别的人工序列(标号21—40),利用本文提出的方法对序列进行分类,取小波为Daubechies.图1、图2和图3
分别为一已知类别的基因
图1 已知类别的一个基因序列和未知类别的一个基因序列
序列和未知类别的基因序列的图形、小波变换系数以及小波变换系数之间的相关函数.按照相关系数的大小来确定未知基因的类别.当相关系数很小时,认为无法分类.用上述方法对已知的序列A1—A20进行分类,结果是除了A4被错误的分到了B 类外,其余的19个样本全部正确,分类准确率达到95%,
专 辑刘志:DNA 序列的一种分类方法115
图2 对应图1序列的小波变换系数
图3 已知类别序列和未知类别序列
小波变换系数的相关函数
用上述方法对A21—A40进行分类,得到的结果
是:
A 类:22,23,25,27,29,30,32,34,35,36,37;
B 类:21,24,26,28,31,38,40.
其中A33和A39为不可判类.
用上述方法对已知的182条自然序列进行分类,
分类结果和基于人工神经网络的分类结果基本一
致[4].但本文提出的分类方法比人工神经网络的分类
方法简单.
5 结论DNA 序列中存在一些规律和结构,充分发掘序
列的结构对理解DNA 全序列是十分有意义的.利用本文提出的分类方法,能够有助于研究DNA 序列的规律性和结构.
参考文献:
[1]胡昌华,张军波.基于Matlab 的系统分析与设计———小波分析[M ].西安:西安电子科技大学出版社,
1999.
[2]潘德惠.数学模型的统计方法[M ].沈阳:辽宁科学技术出版社,1986.
[3]张贤达,保铮.非平稳信号分析与处理[M ].北京:国防工业出版社,1998.
[4]闫平凡.人工神经网[M ].合肥:安徽教育出版社,1991.
〔责任编辑 王 勇〕
A classif ication method of D NA sequence
L IU Zhi
(Missile Institute ,Air Force Engineering University ,Sanyuan 713800,Shaanxi ,China )Abstract :Based on wavelet transform and correlation technique ,a method to classify the DNA sequence is presented.First ,transforming the DNA sequence into digital sequence ,performing Mallat decomposition of sequence ,then calculating the coefficient between the unknown sequence and the known one ,the DNA sequence can be classified by means of the correlation coefficient.The classification results show that this method is practical and feasible.
K ey w ords :DNA sequence ;correlation technique ;wavelet transform 116 陕西师范大学学报(自然科学版)第30卷。