序列分析的原理和方法+结构的预测+全序列分析和进化分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 CAGCCUCGCUUAG 2 AAUGCCAUUGACGG
由于是双重序列对比,所以采用2-D列阵法,将对 比的两个序列分别置于相互垂直的两个轴。
对应位置的两个元素相同则在列阵中对应点记分1, 不相同记为0。
GCCUCG GCCAUUG
GCC UCG GCCAUUG
2. 点矩阵作图法
点矩阵作图法(dot matrix)也称图式矩阵 (graphic matrix)法。
以软件MACAW为例
Reference 1:
Proceedings of the National Academy of Sciences USA 87, 2264-2268 (1990)
此外,该方法为了增加矩阵的容量,将一很大的点矩阵 压缩成一个单面,并用彩色增加效果,一次能分析两条 各5000个元素的序列。
3. 最大期望值算法
最大期望值算法
(expectation maximization algorithm) 简称EM法。
该方法是从多重序列对齐中反复分析找出体现 序列特性的最优模型。
CGTTAAGCTTA - - - TTAAGCTTAGC
C
用点矩阵作图法分析:
TCATTCGCTTA ATTCGCTTACT
T CAT T CGCT T A
A
T

T

C

G

C
T
T
A
C
TCATTCGCTTA
T
ATTCGCTTACT
过滤程序 (filtration procedure)
为了排除不规则散布的点对有意义点模式的干扰,该方法增 加了一过滤程序以滤去散杂点,强化有意义的点。
记分法主要有如下几种:
1.性质矩阵法
用能体现元素特征的理化性质来描述序列中出现的特定元素。
具有某种性质的元素记为1, 不具此性质的记为0
元素特征的理化性质有: 疏水性 极性 带电性 芳香性 分子大小
Baidu Nhomakorabea
2.遗传密码矩阵 3.结构—遗传矩阵 4.突变数值矩阵 5.氨基酸替换矩阵
(二)几种主要算法
生物信息学中的算法(algorithm)
在矩阵中用点“.”和空位代替动态程序算 法中的数字1,0。两条对比的序列中对应 的元素相同打点,不相同作空白。
两条序列比较,若完全相同,形成的点组成一条对角线; 若部分相同,形成的点可连成一条或几条与对角线平行的线段; 若不相同,形成的点呈不规则散布 ; 序列内存在回文结构,对应的点形成的线段则垂直于主对角线;
His-57---Asp-102---Ser-195 (H----------D-----------S)
高等生物至低等生物其丝氨酸蛋白酶均具有类似的功能和结构。将这些物种的 相应蛋白序列利用生物信息学上述方法进行分析,得到下图。
H------D------C/S
Alignment Block Motifs #
………
TTAAGCTTA TTAAGCTTA
T T AAGCT T A T T A A G C T T A
用点矩阵作图法写出下面序列的alignment:
CGTTAAGCTTA TTAAGCTTAGC
CGT T AAGCT T A
T
T
A
A
G
C
T
T
A CGTTAAGCTTA G TTAAGCTTAGC
然后,在以权值矩阵法为基础建立的程序反复分析,得到的Motifs能 反映序列生物学本质。
由此我们得到一个从无规则排列的蛋白 质、核酸序列中建立Blocks和Motifs的 流程图:
权值矩阵法
Alignment -------Block--------Motifs
丝氨酸蛋白酶在自然界分布广泛,具有重要的生物学功能。早在70年 代末, His-57、Asp-102和Ser-195作为酶的催化活性中心已经被证明,已被大家所 公认。
综上所述,我们可以看到,用于相似性分析的各种记分法、 动态程序算法、点矩阵法是序列分析的基础;
由此建立的软件BLAST等扫描数据库得到的相似性序列集合 (alignment),该相似性序列显著性意义可能不大;
经过Gibbs抽样法、EM法等反复抽样分析得到Blocks, 包含在Blocks的序列已经具有显著性意义;
既然病毒的这些蛋白质包含有体现丝氨 酸蛋白酶催化活性Motif:
H----------D-----------S
我们可以推测病毒的这些蛋白质也具有 丝氨酸蛋白酶活性.
生物信息学Blocks和Motifs方法 在病毒研究中的应用.
武汉大学学报, 2000,46(6):709-716
(三)DNA或RNA序列分析
Gibbs抽样法(Gibbs sampling)是一种改进的最大期望值算法。
可用于: 蛋白质序列分析; DNA特殊序列的搜寻; 调节蛋白作用位点的分析
4. 权值矩阵法
上述方法给出了反映序列特征的最优模式。 然而模式中元素对反映序列 特征的贡献是平均化的。
事实上,蛋白质、酶以及核酸的活性部位中元素的作用是 有差异的,因此,包含在反映序列特性的模式中的各元素 除了出现的频率外,还应有能反映贡献差异的数学模式。 权值矩阵法(Weight matrix)在这方面有所侧重。
该算法开始多用于双重序列分析,
包括全序列对齐 (global sequence alignment)
和局部序列对齐 (local sequence alignment)。
其基本原理是两序列的最大匹配依赖于序列的相似性, 即一种序列中的元素与另一种序列相应位置的元素相 同的最大数目。
请指出下面两个序列的保守部分:
指的是根据上述记分法或者元素本身的特征以及 在序列或结构中的分布 规律而推导出来的能反映 被检序列生物学意义的数学方法。
1. 动态程序算法
动态程序算法(dynamic programming algorithm) 起始于1970年。
动态程序算法是现代序列分析的发展基础。
现在普遍使用的用于同源性搜索和序列分析起步搜索的软件 都是以动态程序算法为基础,加以适当的改进而建立起来的。
第三章 序列分析的基本原理
序列分析的基本原理就其本质, 主要来源于: 几种主要的记分法和几种基本算法
(一)几种主要记分法
所谓记分法(scoring method)是 将被分析的序列中的元素通过某 种手 段转化为简单的、直观的、便于计算 机处理的数值的方法。
生物信息学将被分析的序列中的氨基 酸或核苷酸称为“元素”。
相关文档
最新文档