mega操作过程-多序列比对、进化树、
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基础生物信息学及应用
王兴平
内容
基
础
多序列比对
生
物 信
分子进化分析——系统发生树构建
息
学
核酸序列的预测与鉴定
及
应 用
酶切图谱制作
引物设计
基
础 生
多序列比对
物
信
息
学
及
应
用
内容:
基 础
多序列比对
生 物
多序列比对程序及应用
信
息
学
及
应
用
第一节、多序列比对
(Multiple sequence alignment)
物 信
说是非常必要的。
息
为了便于进行交互式手工比对,通常使用不同颜色表示具有
学
不同特性的残基,以帮助判别序列之间的相似性。
及 应
计算机程序自动比对
用
通过特定的算法(如穷举法,启发式算法等),由计算机程
序自动搜索最佳的多序列比对状态。
穷举法
穷举法(exhaustive alignment method)
基 在NCBI/EBI的FTP服务器上可以找到下载的软件包。
础 生
ClustalW 程序用选项单逐步指导用户进行操作,用户
wenku.baidu.com
物
可根据需要选择打分矩阵、设置空位罚分等。
信 息
ftp://ftp.ebi.ac.uk/pub/software/
学
EBI的主页还提供了基于Web的ClustalW服务,用户可以
基
础
生
物 信
概念
息 学
多序列比对的意义
及 应
多序列比对的打分函数
用
多序列比对的方法
1、概念
多序列比对(Multiple sequence alignment)
基 align multiple related sequences to achieve
础
optimal matching of the sequences.
物
信
随着序列数量的增加,算法复杂性也不断增加。用O
息
(m1m2m3…mn)表示对n个序列进行比对时的算法复杂性,
学
其中mn是最后一条序列的长度。若序列长度相差不大,则
及 应
可简化成O(mn),其中n表示序列的数目,m表示序列的长
用
度。显然,随着序列数量的增加,序列比对的算法复杂性
按指数规律增长。
第二节 多序列比对程序及应用
基
将序列两两比对时的二维动态规划矩阵扩展到多维矩阵。即用
础
矩阵的维数来反映比对的序列数目。这种方法的计算量很大,
生
对于计算机系统的资源要求比较高,一般只有在进行少数的较
物 信
短的序列的比对的时候才会用到这个方法
息
DCA (Divide-and-Conquer Alignment):a web-based
2、多序列比对的意义
用于描述一组序列之间的相似性关系,以便了解一个分
基 子家族的基本特征,寻找motif,保守区域等。
础 生
用于描述一组同源序列之间的亲缘关系的远近,应用到
物 分子进化分析中。
信 息
序列同源性分析:是将待研究序列加入到一组与之
学
同源,但来自不同物种的序列中进行多序列同时比
及 应
把序列和各种要求通过表单提交到服务器上,服务器
用
把计算的结果用Email返回用户(或在线交互使用)。
http://www.ebi.ac.uk/clustalw/
Progressive Alignment Method
ClustalW 程序
基
ClustalW对输入序列的格式比较灵活,可以是FASTA格式,还可
基 础
Progressive Alignment Method
生
物
Iterative Alignment
信
息 学
Block-Based Alignment
及 应
DNASTAR
用
DNAMAN
1、Progressive Alignment Method
Clustal:
基 Clustal,是由Feng和Doolittle于1987年提出的。
1 2 3 4 5 6 7 8 91
ⅠY D G G A V - E AL
基
础
ⅡY D G G - - - E AL
生
物
ⅢF E G G I L V E AL
信
息
学
ⅣF D - G I L V Q AV
及
应
ⅤY E G G A V V Q AL
用
表1 多序列比对的定义
表示五个短序列(I-V)的比对结果。通过插入空位,使5个序列中 大多数相同或相似残基放入同一列,并保持每个序列残基顺序不变
础 生
Clustal程序有许多版本
物
ClustalW(Thompson等,1994)是目前使用最广泛的多序列
信
比对程序
息
学
它的PC版本是ClustalX
及 应
作为程序的一部分,Clustal 可以输出用于构建进化
用
树的数据。
Progressive Alignment Method
ClustalW 程序:ClustalW 程序可以自由使用
及 应
较,以确定该序列与其它序列间的同源性大小。
用 其他应用,如构建profile,打分矩阵等
3、多序列比对的方法
手工比对
基
在运行经过测试并具有比较高的可信度的计算机程序(辅助
础
编辑软件如bioedit,seaview,Genedoc等)基础上,结合实
生
验结果或文献资料,对多序列比对结果进行手工修饰,应该
学
program that is semiexhaustive
及 应
http://bibiserv.techfak.uni-bielefeld.de/dca/
用
启发式算法
启发式算法(heuristic algorithms):
基
础
大多数实用的多序列比对程序采用启发式算法
生
(heuristic algorithms),以降低运算复杂度。
础 生
以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。
物
输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以
信
根据自己的需要选择合适的输出格式。
息 学
用ClustalW得到的多序列比对结果中,所有序列排列在一起,
及
并以特定的符号代表各个位点上残基的保守性,“*”号表示保
生
物
为了便于描述,对多序列比对过程可以给出下面的定义:把多序
信
列比对看作一张二维表,表中每一行代表一个序列,每一列代表
息
一个残基的位置。将序列依照下列规则填入表中:
学
及
(a)一个序列所有残基的相对位置保持不变;
应
(b)将不同序列间相同或相似的残基放入同一列,即尽可能将序列
用
间相同或相似残基上下对齐(下表)。
王兴平
内容
基
础
多序列比对
生
物 信
分子进化分析——系统发生树构建
息
学
核酸序列的预测与鉴定
及
应 用
酶切图谱制作
引物设计
基
础 生
多序列比对
物
信
息
学
及
应
用
内容:
基 础
多序列比对
生 物
多序列比对程序及应用
信
息
学
及
应
用
第一节、多序列比对
(Multiple sequence alignment)
物 信
说是非常必要的。
息
为了便于进行交互式手工比对,通常使用不同颜色表示具有
学
不同特性的残基,以帮助判别序列之间的相似性。
及 应
计算机程序自动比对
用
通过特定的算法(如穷举法,启发式算法等),由计算机程
序自动搜索最佳的多序列比对状态。
穷举法
穷举法(exhaustive alignment method)
基 在NCBI/EBI的FTP服务器上可以找到下载的软件包。
础 生
ClustalW 程序用选项单逐步指导用户进行操作,用户
wenku.baidu.com
物
可根据需要选择打分矩阵、设置空位罚分等。
信 息
ftp://ftp.ebi.ac.uk/pub/software/
学
EBI的主页还提供了基于Web的ClustalW服务,用户可以
基
础
生
物 信
概念
息 学
多序列比对的意义
及 应
多序列比对的打分函数
用
多序列比对的方法
1、概念
多序列比对(Multiple sequence alignment)
基 align multiple related sequences to achieve
础
optimal matching of the sequences.
物
信
随着序列数量的增加,算法复杂性也不断增加。用O
息
(m1m2m3…mn)表示对n个序列进行比对时的算法复杂性,
学
其中mn是最后一条序列的长度。若序列长度相差不大,则
及 应
可简化成O(mn),其中n表示序列的数目,m表示序列的长
用
度。显然,随着序列数量的增加,序列比对的算法复杂性
按指数规律增长。
第二节 多序列比对程序及应用
基
将序列两两比对时的二维动态规划矩阵扩展到多维矩阵。即用
础
矩阵的维数来反映比对的序列数目。这种方法的计算量很大,
生
对于计算机系统的资源要求比较高,一般只有在进行少数的较
物 信
短的序列的比对的时候才会用到这个方法
息
DCA (Divide-and-Conquer Alignment):a web-based
2、多序列比对的意义
用于描述一组序列之间的相似性关系,以便了解一个分
基 子家族的基本特征,寻找motif,保守区域等。
础 生
用于描述一组同源序列之间的亲缘关系的远近,应用到
物 分子进化分析中。
信 息
序列同源性分析:是将待研究序列加入到一组与之
学
同源,但来自不同物种的序列中进行多序列同时比
及 应
把序列和各种要求通过表单提交到服务器上,服务器
用
把计算的结果用Email返回用户(或在线交互使用)。
http://www.ebi.ac.uk/clustalw/
Progressive Alignment Method
ClustalW 程序
基
ClustalW对输入序列的格式比较灵活,可以是FASTA格式,还可
基 础
Progressive Alignment Method
生
物
Iterative Alignment
信
息 学
Block-Based Alignment
及 应
DNASTAR
用
DNAMAN
1、Progressive Alignment Method
Clustal:
基 Clustal,是由Feng和Doolittle于1987年提出的。
1 2 3 4 5 6 7 8 91
ⅠY D G G A V - E AL
基
础
ⅡY D G G - - - E AL
生
物
ⅢF E G G I L V E AL
信
息
学
ⅣF D - G I L V Q AV
及
应
ⅤY E G G A V V Q AL
用
表1 多序列比对的定义
表示五个短序列(I-V)的比对结果。通过插入空位,使5个序列中 大多数相同或相似残基放入同一列,并保持每个序列残基顺序不变
础 生
Clustal程序有许多版本
物
ClustalW(Thompson等,1994)是目前使用最广泛的多序列
信
比对程序
息
学
它的PC版本是ClustalX
及 应
作为程序的一部分,Clustal 可以输出用于构建进化
用
树的数据。
Progressive Alignment Method
ClustalW 程序:ClustalW 程序可以自由使用
及 应
较,以确定该序列与其它序列间的同源性大小。
用 其他应用,如构建profile,打分矩阵等
3、多序列比对的方法
手工比对
基
在运行经过测试并具有比较高的可信度的计算机程序(辅助
础
编辑软件如bioedit,seaview,Genedoc等)基础上,结合实
生
验结果或文献资料,对多序列比对结果进行手工修饰,应该
学
program that is semiexhaustive
及 应
http://bibiserv.techfak.uni-bielefeld.de/dca/
用
启发式算法
启发式算法(heuristic algorithms):
基
础
大多数实用的多序列比对程序采用启发式算法
生
(heuristic algorithms),以降低运算复杂度。
础 生
以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。
物
输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以
信
根据自己的需要选择合适的输出格式。
息 学
用ClustalW得到的多序列比对结果中,所有序列排列在一起,
及
并以特定的符号代表各个位点上残基的保守性,“*”号表示保
生
物
为了便于描述,对多序列比对过程可以给出下面的定义:把多序
信
列比对看作一张二维表,表中每一行代表一个序列,每一列代表
息
一个残基的位置。将序列依照下列规则填入表中:
学
及
(a)一个序列所有残基的相对位置保持不变;
应
(b)将不同序列间相同或相似的残基放入同一列,即尽可能将序列
用
间相同或相似残基上下对齐(下表)。