序列比对

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.3.3 Clustal比对结果的编辑
Clustal比对之后的结果,可以采用其他软件进
行编辑,如BioEdit软件、GeneDoc软件,但必 须注意所用软件的输入文件的格式。
BioEdit软件不能识别“.aln”格式,但可识别
“.pir”或“.phy”格式文件。
也可以采用一些在线的着色软件来编辑Clustal
第三章
序列比对
为什么要序列比对?
基于同源物鉴定的功能预测 基本假设:
序列的保守性
因为:
功能的保守性
1. 蛋白质一般在三级结构的层面上执行功能; 2. 蛋白质序列的保守性决定于其编码DNA的保守性。
序列比对中的进化假设
1. 所有的生物都起源于同一个祖先; 2. 序列不是随机产生,而是在进化上,不断发生着 演变; 3. 基本假设: 序列保守性 结构保守性 注意:反之并不为真。 结构保守性 序列保守性
其同源性是生物信息学分析中一个极重要的方面。 本质上,这种分析方法类似于将序列两两对齐重 复成百上千次。
目前在单条序列对库检索中使用最广泛的程序是
FASTA和BLAST。FASTA不会漏检较强的结果, 但有时无法检出弱的但是具有显著性的匹配。 BLAST(基本局域联配搜索工具,Basic Local Alignment Search Tool)只匹配连续序列,缺失 片断将被分段显示。
这是粘贴后的结果
10 20 30 40 50 60 70 80 90 100 ....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|
barley_AAL08496_ wheat_ACO90196_ maize_ACG41151_ millet_ABP65326_ cotton_ACT56517_ cocoa_ABR68691_ tobacoo_BAA12918_ capsicum_CAA57140_ tea_ABD97259_ strawberry_AAD41405_ oil grape_AAZ79357_ mustard_AAN60795_
序列两两比对分析是最简单、最基本的对齐分析。
三种方法: 点阵分析法 动态规划法:Needleman-Wunsch算法、SmithWaterman算法 词或K串法(BLAST or FASTA中应用)
3.2.1 采用Blast进行序列两两对齐分析
Blast是一个局部比对搜索工具,用来确定
Clustal的输入输出格式
输入序列的格式比较灵活,可以是前面介绍
过的FASTA格式,还可以是PIR、SWISSPROT、GDE、Clustal、GCG/MSF、RSF等 格式。
输出格式也可以选择,有ALN、GCG、
PHYLIP和NEXUS等,用户可以根据自己的 需要选择合适的输出格式。
以多个物种的抗坏血酸过氧化物酶的的蛋 白质序列进行比对为例
旁系同源(paralogy)基因是指同一基因组
(或同一物种的基因组)中,由于始祖基因 的加倍而横向/水平方向(horizontal)产生 的几个同源基因。
即:旁系同源是基因复制的结果,两份拷贝 在一个物种的历史上时平行演化的。这样的
基因就被称为旁系同源基因。
直系同源和旁系同源
• 直系与旁系的共性是同源,都源于各自的始祖 基因。 • 其区别在于: • 在进化起源上,直系同源是强调在不同基因组 中的垂直传递,旁系同源则是在同一基因组中 的横向加倍; • 在功能上,直系同源要求功能高度相似,而旁 系同源在定义上对功能上没有严格要求,可能 相似,但也可能并不相似(尽管结构上具一定程 度的相似),甚至于没有功能(如基因家族中的 假基因)。
contents
3.1 概述 3.2 两条序列比对方法 3.3 多条序列比对方法
3.1 概述
3.1.1 序列比对的概念 3.1.2 生物序列之间的关系
3.1.1 序列比对的概念 ⑴ 序列比对(Sequence alignment)
序列比对是序列相似性分析的常用方法,又称
序列联配。
通过将两个或多个核酸序列或蛋白序列进行比
当然,DNAStar、DNAMan等软件也可
生物软件网: http://bio-soft.net/
以进行比对。
载入的序列必须是fasta格式,
存储在记事本(.txt)中。
参数可以选择,或者 默认。
Clustal比对后的结果
3.3 多条序列比对方法
3.3.1 序列对数据库的比对检索分析 3.3.2 多重序列的本地化软件对齐 3.3.3 Clustal比对结果的编辑
• 将要比对的多个序列以 Fasta格式保存
载入多个序列后,选择输出选项,选择输出格式。
或者在比对完成之后,在“文件”中选择“序列 另存为”,同样可以选择合适的输出格式。
选择“进行完全比对”,输出的文件路径自动与原始 的序列文件的路径一致。
Clustal比对结果
星号:完全一致
峰:表示一致程度高 谷:表示一致程度低
直系同源(orthology)是指不同物种内的同源序列, 它们来源于物种形成时的共同祖先基因。 (1) 在进化上起源于一个始祖基因并垂直传递 (vertical descent)的同源基因; (2) 分布于两种或两种以上物种的基因组; (3) 功能高度保守乃至于近乎相同,甚至于其在近缘 物种可以相互替换; (4) 结构相似; (5) 组织特异性与亚细胞分布相似。
双序列比对的显著性:一致性百分比
核酸和蛋白质序列进行对库检索的结果中是否具 有生物学意义是一个很重要的问题。蛋白质序列 对齐分析得到的结论是:对于有70个氨基酸残基 的比对,40%的氨基酸一致性(identities)是一 个认为两个蛋白同源的合理阈值,即它们一般具
有相类似的生物学性质;在此标准之下,两条蛋 白质序列可能具有相似的功能,也可能是性质上 完全不同的蛋白质。
以BLAST检索为例
BLAST是一个序列数据库搜索程序家族,
BLAST检索的网络资源较多: http://www.ncbi.nlm.nih.gov/BLAST http://www.ebi.ac.uk/blast2 http://blast.genome.jp/
当然,也可以将数据库下载到本地进行本地
比对结果。如Boxshade软件,网址: http://www.ch.embnet.org/software/BOX_form. html
⑴ 本地软件编辑比对结果:以BioEdit软件为例
相当于“复制”键,可黏贴到其他 文件,如“word、PowerPoint”等 各种调整图形 的参数可选。
之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
相似性本身的含义,并不要求与进化起源是否同一,与亲
缘关系的远近、甚至于结构与功能有什么联系。
当相似程度高于50%时,比较容易推测检测序列和目标序
列可能是同源序列;而当相似性程度低于20%时,就难以 确定或者根本无法确定其是否具有同源性。
⑶ 直系同源和旁系同源
http://blast.ncbi.nlm.nih.gov/Blast.cgi
点!
特殊BLAST
蛋白质序列比对用blastp,DNA序列比对用blastn
例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对
粘贴 sequence1
粘贴 sequence2
竖线:一致性 (identities) 缺口(gap):不同之处
一条查询序列和一个数据库的比对,最早 的版本不引入间隙,但现在所用的版本已 经允许比对中引入间隙。
“Bl2Seq”是NCBI上Blast程序的一部分,允 许两条序列之行局部双序列比对,使用这 个程序执行蛋白质(或DNA序列)的双序
列比对非常容易。
网络服务如NCBI的“bl2seq”程序,地址:
寻找序列中相似度最高的区域,也就是匹
局部比对
配密度最高的部分。
适用于在某些部分相似度较高,而其他部
位差异较大的序列。 如:Smith-Waterman算法
局部相似性比对
局部相似性比对的生物学基础是蛋白质功能位点往
往是由较短的序列片段组成的,这些部位的序列具 有相当大的保守性,尽管在序列的其它部位可能有 插入、删除或突变。
根据相似性分值继续分组比对,直到得到
最终比对结果。在比对过程中,相似性程 度较高的序列先进行比对而距离较远的序 列添加在后面。
Clustal的工作原理
Clustal输入多个序列 快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。 采用邻接法(NJ)构建一个树(引导树) 根据引导树,渐进比对多个序列。
生系统进化指导树,对关系密切的序列进 行加权;然后从最紧密的两条序列开始, 逐步引入临近的序列并不断重新构建比对, 直到所有序列都被加入为止。
Clustal的渐进比对过程
在比对过程中,先对所有的序列进行两两
ຫໍສະໝຸດ Baidu
比对并计算它们相似性分值,然后根据相 似性分值将它们分成若干组,并在每组之 间进行比对,计算相似性分值。
⑷ 序列比对的数学模型
序列比对的数学模型大体可以分为两类,一类从全长序列出发,
考虑序列的整体相似性,即整体比对;第二类考虑序列部分区 域的相似性,即局部比对。
对序列从头到尾进行比较,试图使尽可能
全局比对
多的字符在同一列中匹配。 适用于相似度较高且长度相近的序列 如:Needleman-Wunsch算法
是同源的。这里不存在同源性的程度问题。这两 条序列之间要么是同源的,要么是不同源的。
所谓同源序列,简单地说,是指从某一共同祖先 经趋异进化而形成的不同序列。 同源蛋白质的氨基酸序列具有明显的相似性,这种
相似性称为序列同源性。
相似性 (similarity)
相似性是指序列比对过程中用来描述检测序列和目标序列
1. 不同物种中,许多基因的功能保守,序列
相似性较高,通过多条序列的比较,发现 保守与变异的部分 2. 可构建HMM模型,搜索更多的同源序列 3. 构建进化的树的必须步骤 4. 比较基因组学研究
5. 两类:全局或局部的多序列比对
⑵ 同源性和相似性
同源性(homology)
如果两个序列有一个共同的进化祖先,那么它们
Blast。前面讲的两两比对是一种特殊的blast。
基因组BLAST
基本BLAST有5种。
基本blast
粘贴序列
结 果 显 示
结 果 显 示
结 果 显 示
3.3.2 多重序列的本地化软件对齐
例如:可采用ClustalX软件
CLUSTAL是一种渐进的比对方法,先将多 个序列两两比对构建距离矩阵,反映序列 之间两两关系;然后根据距离矩阵计算产
此时,局部相似性比对往往比整体比对具有更高的
灵敏度,其结果更具生物学意义。
BLAST和FastA等常用的数据库搜索程序均采用局
部相似性比对的方法,具有较快的运行速度,而基 于整体相似性比对的数据库搜索程序则需要超级计 算机或专用计算机才能实现。
3.2 两条序列比对方法
3.2.1采用Blast进行序列两两对齐分析 3.2.2采用本地化软件进行两条序列比对
对,显示其中相似的结构域,这是进一步相似 性分析的基础。通过比较未知序列与已知序列 的一致性或相似性,可以预测未知序列功能。
两条序列比对(pairwise alignment)
通过比较两条序列之间的相似区域
和保守性位点,寻找二者之间可能 的进化关系。
多重序列比对(multiple alignment)
对于DNA序列需要具有75%以上的同源性才可能 具有潜在的生物学意义。
3.2.2 采用本地化软件进行两条序列比对
做多重比对分析的本地软件也可以做两
两比对分析,如clustalX软件等。
Clustal是一个单机版的基于渐进比对的
多序列比对工具。其基本思想就是基于 相似序列通常具有进化相关性的这一假 设。
多重序列比对:
用于描述一组序列之间的相似性关系,以便了解一个基
因家族的基本特征,寻找motif,保守区域等。
用于描述一个同源基因之间的亲缘关系的远近,应用到
分子进化分析中。 其他应用,如构建profile,打分矩阵等。
3.3.1 序列对数据库的比对检索分析
一条序列对整个数据库进行相似性分析,以发现
相关文档
最新文档