实验3 两条序列比对与多序列比对
第三讲 序列比对
具有共同的祖先 垂直同源(ortholog) 水平同源(paralog) 同源是定性的!
相似性(similarity)—序列之间相似的程度
相似是定量的!
同源序列一般是相似的,相似序列不一定是同源
的
相似性分数的计算
1)编辑距离:两条序列对应位置上不同字符的个数 2)相似性得分:两条序列对应位置上相同字符的个数 相似分数越高,序列越相似,编辑距离越小,序列越相似 两条序列长度不一致时:空格(Gap)
等价矩阵表 A A T 1 0 T 0 1 C 0 0 G 0 0 A T BLAST矩阵 A 5 -4 -4 T -4 5 -4 C G A T -4 -4 -4 -4 转移矩阵 A 1 -5 -1 T -5 1 -5 C G -5 -1 -1 -5
C
G
0
0
0
0
1
0
0
1
C
G
-4 -4
5
-4
C
G
-5 -1 1
全局比对
• 对序列从头到尾进行比较,试图使尽可 能多的字符在同一列中匹配。 • 适用于相似度较高且长度相近的序列 • 如:Needleman-Wunsch算法
• 寻找序列中相似度最高的区域,也就是 匹配密度最高的部分。 局部比对 • 适用于在某些部分相似度较高,而其他 部位差异较大的序列。 • 如:Smith-Waterman算法
多序列比对结果
多序列比对结果
多序列比对是生物信息学中的一项重要任务,其目的是找出多个生物
序列之间的相似性和差异性。多序列比对结果包含了许多有用的信息,可以帮助我们更好地理解生物学现象和进化规律。本文将详细介绍多
序列比对结果的相关内容。
一、多序列比对的基本概念
1.1 多序列比对的定义
多序列比对是指将三个或三个以上的生物序列进行比较,找出它们之
间的相同和不同之处,并将它们分别放置在同一条直线上,以便于进
行分析和研究。
1.2 多序列比对的意义
多序列比对可以帮助我们更好地理解不同种类生物之间的进化关系、
基因功能以及蛋白质结构与功能等方面。同时,它也是进行系统发育
分析、遗传变异研究以及药物设计等领域中必不可少的工具。
二、多序列比对结果中常见术语解释
2.1 序列标识符(Sequence identifier)
指每个输入序列所属生物体或基因名称等信息,通常用于区分不同来
源的数据。
2.2 序列长度(Sequence length)
指每个输入序列的长度,通常以碱基或氨基酸数量为单位。
2.3 序列相似度(Sequence similarity)
指两个或多个序列之间的相同比例,通常用百分比表示。
2.4 序列同源性(Sequence homology)
指两个或多个序列之间的共同祖先,通常用BLAST等工具进行判定。2.5 序列保守性(Sequence conservation)
指在比对结果中多个序列中某一位点上具有相同碱基或氨基酸的频率,可以反映出该位点在进化过程中的重要性。
三、多序列比对结果展示方式
3.1 线性展示方式
序列比对(双序列比对)
二:实验内容及操作步骤
1. 进入
http://www.ncbi.nlm.nih.gov/blast/bl 2seq/wblast2.cgi
2. 下载核酸或蛋白质序列分别放在 sequence1和sequence2中 3. 核酸使用源自文库lastn程序,蛋白使用blastp程序 4. 设置不同罚分值进行比对,比较结果
二:实验内容及操作步骤
1. 进入
http://www.ncbi.nlm.nih.gov/blast/bl 2seq/wblast2.cgi
2. 下载核酸或蛋白质序列分别放在 sequence1和sequence2中 3. 核酸使用blastn程序,蛋白使用blastp程序 4. 设置不同罚分值进行比对,比较结果 5. 自己选取 个序列来比对。 自己选取2个序列来比对 个序列来比对。
三:作业
1. 将以前作业中的基因的DNA序列和cDNA序 列下载下来,并运用BLAST2进行比对,根 据比对结果将该基因结构示意图画出来。
三:作业
2. 如果你获得了以下一段序列,请你说明这段序列是 DNA还是cDNA?是何物种的?列出其完整的DNA、 cDNA和蛋白质序列并绘出该基因的结构示意图 。如 果有功能请列出其功能并标出功能域。
运用:
请查询(或搜索)Os11g37990的 请查询(或搜索) 的 DNA、mRNA(cDNA)和蛋白质序列。 、 和蛋白质序列。 和蛋白质序列
生物信息多序列比对
图2 序列比对,图中“-”表示插入和删除,用字符表示相同的残基,“+”表示相似残基
序列比较的基本操作是比对(Alignment)
–两个序列的比对是指这两个序列中各个字符的一种
一一对应关系,或字符的对比排列 。
设有两个序列: GACGGATTAG,GATCGGAATAG
Alignment1:
GACGGATTAG GATCGGAATAG
依据,配对得1分,不匹配不得分,插入1个gap扣1分。
例如:
s: AGCACACA t: ACACACTA cost=2
s: AGCACACA t: ACACACTA score (s,t)= 5
序列比对的目的是寻找一个得分最大 (或代价最小)的比对。
s: AGCACACA t: ACACACTA (A)
MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND
所以, 相似性的数值一定比一致性的要( 大 or 相等 or 小 )
序列比对的基本思想,是找出检测序列和目标序列
的相似性。比对过程中需要在检测序列或目标序列中引入 空位,以表示插入或删除(图2)。
问题描述: 给定两个序列P, Q,当一个序列R既是P又是Q的子序列时,为P 和Q的公共子序列。 如P=“ABCBDAB”, Q=“BDCABA”则BCA为P与Q的一个公共子 序列,但是BCBA也是公共子序列,而且是最长公共子序列。 因此,关键是寻找最长公共子序列。 AB- C- BDAB BDCAB- A * * * *
结构生物信息学3-序列比对
序列比对算法
生物信息学培训班
蛋白质的打分矩阵
疏水矩阵
序列比对算法
主要利用蛋白质统计信息和氨基酸与疏水级映射关系,提 出一种基于亲疏水性的替代矩阵HB62,解决蛋白质疏水 级序列相似性计算问题
生物信息学培训班
蛋白质的打分矩阵 -- 疏水矩阵
序列比对算法
生物信息学培训班
蛋白质的打分矩阵 -- PAM
生物信息学培训班
空位罚分
序列比对算法
仿射空位处罚模型(Affine Gap Model): Wx=Wg+Ws(x-1) A T G T T A T A C
Wx 为总空位记分,g为空位开 放罚分,r为空位扩展罚分,x 为空位长度 空位参数: T A T G T G C G T A T A 匹配= 1 总分:4 错配= 0 A T G T - - - T A T A C
PAM矩阵(Point Accepted Mutation)
序列比对算法
基于进化的点突变模型 如果两种氨基酸替换频繁,说明自然界接受这种替换, 那么这对氨基酸替换得分就高 Margaret Dayhoff(1978)通过对物种进化的研究,根 据一种氨基酸被另一种氨基酸替代的频度而提出的,其 中可接受的点突变,氨基酸的改变不显著影响蛋白质的 功能; 一个PAM就是一个进化的变异单位, 即1%的氨基酸改变 但这并不意味100次PAM后,每个氨基酸都发生变化, 因为其中一些位置可能会经过多次突变,甚至可能会变 回到原来的氨基酸。
第3章序列比对[1]
第三章 序列比对
Sequences alignment
为什么要序列比对
基于同源物鉴定的功能预测 基本假设: 序列的保守性
Pairwise alignment of retinol-binding protein and β-lactoglobulin
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin
生物信息学课后题及答案
生物信息学课后习题及答案
(由10级生技一、二班课代表整理)
一、绪论
1.你认为,什么是生物信息学?
采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。
2.你认为生物信息学有什么用?对你的生活、研究有影响吗?
(1)主要用于:
在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等
在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。
(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。
3.人类基因组计划与生物信息学有什么关系?
人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。
4简述人类基因组研究计划的历程。
通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。
1990,人类基因组计划正式启动。
1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。
1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。Celera公司加入,与公共领域竞争启动水稻基因组计划。
1999,第五届国际公共领域人类基因组测序会议,加快测序速度。
两条序列比对与多序列比对
两条序列⽐对与多序列⽐对
实验三:两条序列⽐对与多序列⽐对
实验⽬的:
学会使⽤MegAlign,ClustalX和MUSCLE进⾏两条序列和多条序列⽐对分析
实验内容:
双序列⽐对是使两条序列产⽣最⾼相似性得分的序列排列⽅式和空格插⼊⽅式。两条序列⽐对是⽣物信息学最基础的研究⼿段。第⼀次实验我们⽤dotplot⽅法直观地认识了两条序列⽐对。但是dotplot仅仅是展⽰了两条序列中所有可能的配对,并不是真正意义上的序列⽐对。这⾥介绍进⾏两条序列⽐对的软件-MegAlign。
多序列⽐对是将多条序列同时⽐对,使尽可能多的相同(或相似)字符出现在同⼀列中。多序列⽐对的⽬标是发现多条序列的共性。如果说序列两两⽐对主要⽤于建⽴两条序列的同源关系,从⽽推测它们的结构和功能,那么,同时⽐对多条序列对于研究分⼦结构、功能及进化关系更为有⽤。多序列⽐对对于系统发育分析、蛋⽩质家族成员鉴定、蛋⽩质结构预测、保守模块的搜寻等具有⾮常重要的作⽤。我们这节课主要学习多条序列⽐对的软件-ClustalX, MUSCLE。
⼀、MegAlign
DNASTAR公司的Lasergene软件包是⼀个⽐较全⾯的⽣物信息学软件,它包含了7个模块。其中MegAlign可进⾏两条或多条序列⽐对分析。
1. 两条序列⽐对
1.1 安装程序
解压DNASTAR Lasergene软件压缩包,双击Lasergene710WinInstall.exe⽂件,按照默认路径安装软件到⾃⼰电脑上。
1.2 载⼊序列
a.点击开始-程序-Lasergene-MegAlign,打开软件。
多序列比对 简书
多序列比对简书
【原创实用版】
目录
1.多序列比对的定义和作用
2.多序列比对的方法
3.多序列比对的应用实例
4.多序列比对的发展前景
正文
一、多序列比对的定义和作用
多序列比对是一种生物信息学技术,用于比较两个或多个序列之间的相似性和差异性。在生物学研究中,多序列比对是一种重要的方法,可以帮助研究人员了解基因、蛋白质和 DNA 序列之间的进化关系和结构特征。多序列比对可以为基因组学、蛋白质组学、转录组学等领域的研究提供有力支持。
二、多序列比对的方法
多序列比对的方法可以分为两类:基于距离的比对方法和基于序列相似性的比对方法。
1.基于距离的比对方法:这类方法主要通过计算序列之间的距离来衡量它们的相似性。常用的距离计算方法有欧氏距离、汉明距离等。
2.基于序列相似性的比对方法:这类方法主要通过比较序列之间的相似性来衡量它们的相似性。常用的相似性计算方法有 PAM 矩阵、BLOSUM 矩阵等。
三、多序列比对的应用实例
多序列比对在生物信息学领域有很多应用实例,下面列举两个典型的
应用:
1.基因组学:通过多序列比对,可以研究不同物种之间的基因组结构和序列差异,了解基因组的演化历程。
2.蛋白质组学:通过多序列比对,可以研究不同物种之间的蛋白质序列差异,进而分析蛋白质的功能和结构特征。
四、多序列比对的发展前景
随着生物信息学技术的不断发展,多序列比对在生物学研究中的应用将越来越广泛。未来,多序列比对技术将继续优化和完善,以适应不断增长的生物数据需求。
多序列比对方法
精彩图文 最应景的新年菜:鲤鱼跃龙门
核酸序列比对有什么作用?
这就是遗传的原理,核酸的序列都是通过严格的规律进行复制的,这就保证了生物物种的可遗传 性,如果发生错误,就可以是基因突变,产生特别的表现性能。
序列比较是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构 和进化的信息。序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之 间共同的区域,同时辨别序列之间的差异。在分子生物学中,DNA或蛋白质的相似性是多方面的, 可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。一个普遍的规律是序 列决定结构,结构决定功能。研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相 似的功能。这种方法在大多数情况下是成功的,当然,也存在着这样的情况,即两条序列几乎没有 相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。这里先不考虑空间结构或功能的 相似性,仅研究序列的相似性。研究序列相似性的另一个目的是通过序列的相似性,判别序列之间 的同源性,推测序列之间的进化关系。这里,将序列看成由基本字符组成的字符串,无论核酸序列 还是蛋白质序列,都是特殊的字符串.
艺术类期刊《金田》编辑部征稿 正规期刊论文
材料作文“树根的命运”写作指 柳栖士
更多>>
推荐博文
美女大学生激励球队的背后(图) 昕薇
两条序列比对与多序列比对
实验三:两条序列比对与多序列比对
实验目的:
学会使用MegAlign,ClustalX和MUSCLE进行两条序列和多条序列比对分析
实验内容:
双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式。两条序列比对是生物信息学最基础的研究手段。第一次实验我们用dotplot方法直观地认识了两条序列比对。但是dotplot仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序列比对。这里介绍进行两条序列比对的软件-MegAlign。
多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。多序列比对的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。
一、MegAlign
DNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件,它包含了7个模块。其中MegAlign可进行两条或多条序列比对分析。
1. 两条序列比对
1.1 安装程序
解压DNASTAR Lasergene软件压缩包,双击Lasergene710WinInstall.exe文件,按照默认路径安装软件到自己电脑上。
1.2 载入序列
a.点击开始-程序-Lasergene-MegAlign,打开软件。
我们首先用演示序列(demo sequence)学习软件的使用。演示序列所在位置:C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\。
实习四:多序列比对(Multiplealignment)
实习四:多序列⽐对(Multiplealignment)
实习四:多序列⽐对(Multiple alignment)
学号姓名专业年级
实验时间提交报告时间
实验⽬的:
1. 学会利⽤MegAlign进⾏多条序列⽐对
2. 学会使⽤ClustalX、MUSCLE 和T-COFFEE进⾏多条序列⽐对分析
3. 学会使⽤HMMER进⾏HMM模型构建,数据库搜索和序列⽐对
实验内容:
多序列⽐对是将多条序列同时⽐对,使尽可能多的相同(或相似)字符出现在同⼀列中。多序列⽐对的⽬标是发现多条序列的共性。如果说序列两两⽐对主要⽤于建⽴两条序列的同源关系,从⽽推测它们的结构和功能,那么,同时⽐对多条序列对于研究分⼦结构、功能及进化关系更为有⽤。例如,某些在⽣物学上有重要意义的相似区域只能通过将多个序列同时⽐对才能识别。只有在多序列⽐之后,才能发现与结构域或功能相关的保守序列⽚段,⽽两两序列⽐对是⽆法满⾜这样的要求的。多序列⽐对对于系统发育分析、蛋⽩质家族成员鉴定、蛋⽩质结构预测、保守模块的搜寻以及PCR引物设计等具有⾮常重要的作⽤。
作业:
1.Align the orthologous nucleotide and protein sequences from 5 organisms you found from first practice with MegAlign. Describe the sequences you used (the title of each sequence), explain whether the phylogenetic tree is consistent with the species tree from NCBI taxonomy database. Set the alignment report to show consensus strength and decorate the residues different from consensus with green shade.
实习四:多序列比对(Multiple alignment)
实习四:多序列比对(Multiple alignment)
学号姓名专业年级
实验时间提交报告时间
实验目的:
1. 学会利用MegAlign进行多条序列比对
2. 学会使用ClustalX、MUSCLE 和T-COFFEE进行多条序列比对分析
3. 学会使用HMMER进行HMM模型构建,数据库搜索和序列比对
实验内容:
多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。多序列比对的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。例如,某些在生物学上有重要意义的相似区域只能通过将多个序列同时比对才能识别。只有在多序列比之后,才能发现与结构域或功能相关的保守序列片段,而两两序列比对是无法满足这样的要求的。多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻以及PCR引物设计等具有非常重要的作用。
作业:
1.Align the orthologous nucleotide and protein sequences from 5 organisms you found from first practice with MegAlign. Describe the sequences you used (the title of each sequence), explain whether the phylogenetic tree is consistent with the species tree from NCBI taxonomy database. Set the alignment report to show consensus strength and decorate the residues different from consensus with green shade.
多序列比对
蛋白质功能预测
一、根据序列预测功能的一般过程 如果序列重叠群(contig)包含有蛋白质编码区,则接 下来的分析任务是确定表达产物——蛋白质的功能。蛋 白质的许多特性可直接从序列上分析获得,如疏水性, 它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是,总的来 说,我们根据序列预测蛋白质功能的唯一方法是通过数 据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。 有2条主要途径可以进行上述的比较分析:
ຫໍສະໝຸດ Baidu
我们称比对前序列中残基的位置为绝对位 置。如序列Ⅰ的第3位的残基是甘氨酸G,则 绝对位置Ⅰ3就是甘氨酸,而不能变成任何其 它氨基酸。相应地,我们称比对后序列中残基 的位置为相对位置。显然,同一列中所有残基 的相对位置相同,而每个残基的绝对位置不同, 因为它们来自不同的序列。 绝对位置是序列本身固有的属性,或者说 是比对前的位置,而相对位置则是经过比对后 的位置,也就比对过程赋予它的属性。
多序列比对
双序列比对是序列分析的基础。然而, 对于构成基因家族的成组的序列来说,我 们要建立多个序列之间的关系,这样才能 揭示整个基因家族的特征。多序列比对在 阐明一组相关序列的重要生物学模式方面 起着相当重要的作用。
多序列比对有时用来区分一组序列之间的差异,但 其主要用于描述一组序列之间的相似性关系,以便对 一个基因家族的特征有一个简明扼要的了解。与双序 列比对一样,多序列比对的方法建立在某个数学或生 物学模型之上。 因此,正如我们不能对双序列比对的结果得出“正 确或错误”的简单结论一样,多序列比对的结果也没 有绝对正确和绝对错误之分,而只能认为所使用的模 型在多大程度上反映了序列之间的相似性关系以及它 们的生物学特征。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验三:两条序列比对与多序列比对
实验目的:
学会使用MegAlign,ClustalX和MUSCLE进行两条序列和多条序列比对分析
实验内容:
双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式。两条序列比对是生物信息学最基础的研究手段。第一次实验我们用dotplot方法直观地认识了两条序列比对。但是dotplot仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序列比对。这里介绍进行两条序列比对的软件-MegAlign。
多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。多序列比对的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。
一、MegAlign
DNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件,它包含了7个模块。其中MegAlign可进行两条或多条序列比对分析。
1. 两条序列比对
1.1 安装程序
解压DNASTAR Lasergene软件压缩包,双击Lasergene710WinInstall.exe文件,按照默认路径安装软件到自己电脑上。
1.2 载入序列
a.点击开始-程序-Lasergene-MegAlign,打开软件。
我们首先用演示序列(demo sequence)学习软件的使用。演示序列所在位置:C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\。
b. 点击主菜单File—Enter sequence-选择序列所在文件夹,选择序列tethis21.seq和tethis22.seq,点击Add,这两条序列将出现在右侧selected sequences框中(Figure 3.1),选择完毕点击Done回到程序页面。
Figure 3.1 载入序列
此时程序窗口分为三部分,最左侧较窄的是sequence name,中间显示的是序列起始位置,最右侧显示序列末尾部分,可以通过拖动窗口底部滚动条,查看序列其它部分(Figure 3.2)。若想改变字体显示方式,点击主菜单OPTIONS,选择Font改变字体,选择Size改变字号大小。若要移除序列,选中sequence name的序列名,右击,选clear。
Figure 3.2 载入序列后(注意标注的绿色箭头,即为坐标位置)
1.3 设定序列比对位置
MegAlign允许使用者选择序列的一部分进行比对分析,例如,可以根据GenBank格式的序列中Features部分关于编码区(CDS)位置的描述,设定只对此编码区进行分析。
a. 点击最左侧Sequence Name框中的第一条序列tethis,然后选择主菜单OPTIONS
-Set sequence limits-from feature table。(Figure 3.3)此时根据feature内容,出现四个可以选择的片段,第一个为全长,从序列起始到末尾(1-906),其它三个则只包括序列的一部分,选择最后一个Histone H2B-1—CDS,点击Change the Reset,点击OK,同样对第二条序列进行上述操作,回到主界面工作区,此时窗口中的序列起始和终止位置已经发生了变化。(Figure 3.4)
Figure 3.3 利用Feature Table选择序列特定部分
Figure 3.4 选择序列特定部分
b. 我们还可以通过设定序列坐标进行部分序列比对,首先选定序列,选择主菜单
OPTIONS-Set sequence limits-by coordinates,输入起始和终止位置坐标来选择部分序列进行分析。
注意:只有genbank格式的序列才可以Set sequence limits from feature table,fasta格式的序列因为没有feature那一项内容,只可以Set sequence limits by coordinates。
1.4 进行两条序列比对
如果输入两条序列后不设置序列起始和终止位置,默认是全长序列进行比对。
按住Shift选择序列tethis21和tethis22,然后点击主菜单Align-One pair,由于目前输入的是核酸序列,此时有两个选项,Wilbur-Lipman Method和Martiner NW Method。如果输入的是蛋白质序列,这两个选项将是灰色,只能用Lipman-Pearson Method进行比对。Wilbur-Lipman Method是一种以word为单位的(word-based)启发式局部比对方法;Martiner NW Method是一种改进了的全局动态规划算法。Lipman-Pearson Method是序列相似度搜索软件Fasta的比对算法,也是一种以word为单位的快速启发式算法。选择其中一个,出现比对参数设定窗口(Figure 3.5),选择默认参数不做更改,直接点击OK即可。
Figure 3.5 Wilbur-Lipman比对方法参数设定
这时出现一个新窗口,即为比对结果。可以选择OPTION-size,放大字号观察比对结果。可以看到在窗口上部显示的是比对方法名称,所用参数,两条序列各自的起止位置,相似度值,比对结果中空位数目,长度和一致序列的长度。随后就是比对结果部分,其中第一行是第一条序列,它上面的v70是标尺,其中的“V”的位置对应的是第一条序列的第70个核苷酸所在位置;第三行是第二条序列,它下方的数字同样对应该序列位置坐标;中间那行是根据两条序列比对结果中匹配部分推断出来的一致序列(consensus sequence),错配或空位显示为空白(Figure 3.6)。
Figure 3.6 Wilbur-Lipman方法比对结果