生物信息学 第四章 双序列比对
(生物信息学)lecture04双序列比对
SAMtools软件
1
SAMtools是一个用于处理和分析序列对齐映射 (SAM)格式数据的生物信息学软件工具。
2
SAMtools软件提供了多种用于双序列比对的工 具,如SAMtools sort、SAMtools index和 SAMtools view等。
BLAST软件具有高效、准确和灵活的特点,广泛应用于生物信息学领域的序列比对 和相似性搜索。
GATK软件
GATK(Genome Analysis Toolkit)是一个用于分析高通量测序数据的生 物信息学软件工具集。
GATK软件提供了多种用于双序列比对的工具,如Smith-Waterman算法 和Burrows-Wheeler变换等。
药物作用机制研究
通过比对药物作用前后的基因或蛋白质序列,分析药物对生 物分子的影响和作用机制,有助于深入理解药物的作用原理 和潜在副作用。
05
双序列比对的挑战与未来发展
数据规模与计算复杂度
数据规模
随着测序技术的快速发展,产生的序列数据量呈指数级增长,给 双序列比对带来了巨大的挑战。
计算复杂度
双序列比对的算法复杂度较高,尤其是在处理大规模数据时,需 要消耗大量的计算资源和时间。
通过比对患者与健康人的基因序列,寻找与疾病相关的基因变异位点,有助于定位和阐明疾病发生的分子机制。
药物靶点发现
通过比对不同物种的基因或蛋白质序列,寻找与药物分布、活化等相关的靶点,有助于发现新的药物候选分子。
药物发现与设计
药物靶点筛选
通过比对已知药物靶点序列与数据库中的序列,筛选出潜在 的药物靶点,有助于发现新的药物作用机制和候选药物。
生物信息学中的序列比对算法及评估指标比较
生物信息学中的序列比对算法及评估指标比较序列比对是生物信息学中非常重要的工具之一,用于分析和比较生物序列的相似性和差异。
序列比对是理解生物进化和功能注释的关键步骤,在基因组学、蛋白质学和遗传学等领域都有广泛应用。
本文将介绍序列比对的算法原理和常用的评估指标,并对几种常见的序列比对算法进行比较。
一、序列比对算法1.全局比对算法全局比对算法用于比较整个序列的相似性,常见的算法有Needleman-Wunsch 算法和Smith-Waterman算法。
这两种算法都是动态规划算法,其中Needleman-Wunsch算法用于比较两个序列的相似性,而Smith-Waterman算法用于寻找局部相似的片段。
这些算法考虑了序列的整体结构,但在处理大规模序列时计算量较大。
2.局部比对算法局部比对算法用于找出两个序列中最相似的片段,常见的算法有BLAST (Basic Local Alignment Search Tool)算法和FASTA(Fast All)算法。
这些算法以快速速度和高敏感性著称,它们将序列切割成小的段落进行比对,并使用统计模型和启发式搜索来快速找到最佳匹配。
3.多序列比对算法多序列比对算法用于比较多个序列的相似性,常见的算法有ClustalW和MAFFT(Multiple Alignment using Fast Fourier Transform)算法。
这些算法通过多次序列比对来找到共有的特征和区域,并生成多序列的一致性描述。
二、评估指标1.一致性分数(Consistency Score)一致性分数是衡量序列比对结果一致性的指标,它反映了序列比对的精确性和准确性。
一致性分数越高,表示比对结果越可靠。
常用的一致性分数有百分比一致性(Percentage Identity)和序列相似度(Sequence Similarity)。
2.延伸性(Extension)延伸性是衡量序列比对结果的长度的指标。
两序列比对算法
两序列比对算法摘要:序列比对是生物信息学研究的一个基本方法,对于发现生物序列中的功能、结构和进化信息具有重要的意义。
两序列比对中,典型的全局比对算法是Needleman—Wunsch算法;局部比对算法的基础是Smitll—Waterm an 算法,本文对典型的双序列比对算法进行描述。
关键词:生物信息学;两序列比对;算法引言:为了满足基因组中获得更多更有价值的信息,生物信息学迅速发展起来,生物信息学是一门多门科学交叉的学科,将数学、计算机科学应用于生物大分子信息的获取、加工、存储、分类、检索和分析等,以达到阐明和理解大量数据所蕴含的生物学意义的目的。
通过对DNA和蛋白质序列进行相似性比较,指明序列间的保守区域和不同之处,为进一步研究它们在结构、功能以及进化上的联系提供了重要的参考依据。
而序列比对就是运用某种特定的数学模型或算法,找出两个或多个序列之间的最大匹配碱基或残基数,比对的结果反映了算法在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。
双序列比对算法双序列比对分为全局比对和局部比对,全局比对是考察两个序列之间的全局相似性,局部比对则比较序列片段之间的相似性。
Needleman—Wunsch算法是典型的全局比对算法,适用于全局水平上相似性程度较高的两个序列;Smitll—Waterman 算法适用于寻找局部相似序列对,该算法是目前被使用最广泛的序列相似性比较算法之一,由所熟悉的Needleman—Wunsch算法演变而来。
Needleman-Wunsch 算法使用迭代方法计算出两个序列的相似分值,存于一个得分矩阵中,然后根据这个得分矩阵,通过动态规划的方法回溯寻找最优的比对序列。
具有很高的灵敏度使用二维表格,一个序列沿顶部展开,一个序列沿左侧展开。
而且也能通过以下三个途径到达每个单元格:1.来自上面的单元格,代表将左侧的字符与空格比对。
2.来自左侧的单元格,代表将上面的字符与空格比对。
05_双序列比对
简单的序列比对
• 将两条序列左端对齐,放在两行中。 • 如果某列中两条序列的字符相同,则用竖线(|)将
它们连起来。 • 这是最佳比对结果吗?
是否有更好的比对结果?
• 如果我们仅仅将它们相对移动两个位置, 就可得到更好的比对结果:
结论
• We can not simply put both sequences one alongside the other, but we must compare them in all possible shiftings looking for the best alignment.
双序列比对多序列比对序列比对dna序列比对蛋白质序列比对序列比对软件氨基酸序列比对序列全局比对图片比对照片比对
复习
1. 数据库检索和数据库搜索的概念 2. Entrez数据库检索系统 3. SRS 数据库检索系统
双序列比对 (Pairwise Sequence Alignment)
1. 为什么要进行序列比对? 2. 序列比对相关术语 3. 最佳比对 4. 利用计算机进行序列比对 5. 序列的点阵作图比对 6. 双序列比对工具
potential similarities
30-40
30 Longer, weaker local alignments
< 30
4.1.3 PAM 和 BLOSUM 的差别
• PAM 矩阵是从蛋白质序列的全局比对 结果推导出来的;
• BLOSUM 矩阵则是从蛋白质序列局部 比对推导出来的。
Rat versus mouse RBP
“午夜区”( midnight zone )
• 当相似性低于10%时,就进入了“午 夜区”( midnight zone ),这时无法 检测结构的相似性。
双序列比对算法
双序列比对算法
/// 双序列比对用于研究两个序列定义的DNA有多少相似之处,或者蛋白质序列有多少相似之处。
/// 这种比较在DNA鉴定和遗传暗示步骤中是非常重要的,在生物信息学应用中,两个序列之间比较也特别重要,特别是在研究顺序的进化关系和鉴定功能。
///
/// 双序列比对算法主要用于非完全比对,因为完全比对可以利用穷举法,把序列中的元素两两比对,以期发现所需的最近分数最高的所需的比对对。
/// 双序列比对算法可以利用动态规划算法,其中首先定义一个矩阵,表示序列i和序列j的最佳比对,在这个矩阵中,每个条目用于表示以矩阵中元素为末尾的两个序列段的相似度/距离,元素i和元素j越来越相似,这个度量值越大,距离越小。
///
/// 动态规划法大概有两个步骤:第一个步骤是填充一个矩阵,第二个步骤是从矩阵中搜索出最有可能产生最高得分的比对对。
双序列比对的具体步骤
双序列比对的具体步骤双序列比对,这个名字听起来挺复杂,其实就像在一场舞会上找搭档。
想象一下,一对舞者在舞池里翩翩起舞,他们的动作得协调,节奏得一致,才能让人眼前一亮。
双序列比对就是在生物信息学中的“舞会”,我们要把两条DNA、RNA或者蛋白质序列“比对”起来,看它们之间的相似性和差异性。
今天就来聊聊这个过程,有点轻松有点幽默,希望大家能跟着我的节奏走。
你得有两条序列,像是两个舞者。
可能一条是来自于某种植物,另一条是来自于一只可爱的海豚。
哦,别小看这些序列,它们的长度可能就像一条大长河,从头到尾可真不少。
你得准备好工具,比如生物信息学里的软件工具。
这个工具就像是舞会的DJ,帮你调节音乐,确保舞者在合适的节拍下起舞。
比如BLAST、Clustal Omega、MAFFT之类的,你选一个就行。
别担心,它们都很“给力”,能帮你快速找到相似部分。
接下来就是预处理。
这一步就像是给舞者穿上合适的舞鞋,得把序列中那些多余的空格、特殊字符都处理掉。
想象一下,鞋子磨脚,舞者可跳不好呀。
这时,你还可以考虑一下序列的质量。
如果有些序列质量差,像是舞步不稳的舞者,建议把它们剔除掉,留下那些稳稳的“舞者”。
然后,真正的比对开始了!你将这两条序列输入工具,就像把舞者推入舞池。
软件开始工作了,开始寻找匹配的部分。
这个过程就像在找节拍,找到相似的地方,打出“合拍”的舞步。
如果两个序列在某些位置上有相同的碱基或者氨基酸,哇塞,那就是完美的配合!你会看到一条条的对齐线,心里不禁暗暗叫好。
不过,双序列比对可不是只有完美的配合,有时也会出现差异。
就像舞会上的舞者,可能有些人跳得慢,有些人快,动作也各有不同。
有的地方可能有缺失,有的地方则是多了几步。
这时候,你得好好分析这些差异,看看它们背后的意义。
是因为物种间的进化差异,还是因为某些环境因素造成的?哎呀,真是个好奇的事儿,像是在追溯舞者的历史。
你得把比对的结果给整理出来。
这个结果就是你的“舞会记录”,记录了舞者们的精彩表演。
生物信息学 第四章 序列比对与算法
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
CKH-VFCRVCI CKKC-FC-KCV
Score with PAM 250 and gap penalty -10
CKHVFCRVCI CKKCFC-KCV
36 + 5 + 0 – 2 + 9 – 2 + 5 – 10 = 41
CKHVFCRVCI CKKCFCK-CV
36 + 5 + 0 – 2 + 9 + 5 + 4 – 10 = 47
矩阵的元素表示由原来的氨基酸(上行,蓝色)替换为另一个氨
基酸(左列,绿色)的概率
例
Score with PAM 250 and gap penalty -10
CKHVFCRVCI CKKCFCKCV
计算如下比对
CKHVFCRVCI CKKCFC-KCV
CKHVFCRVCI CKKCFCK-CV
C-KHVFCRVCI CKKC-FC-CKV
训练集用于建立模型,测试集用于评估模型。 随机选出一些数据作为模型(训练集),发现其规律,然后把剩下的数据作为一
个类似模型(就叫测试集),计算检测这个模型的规律与训练集的误差等, 从而确定这个规律是否正确(机器学习方法)。 PAM (“Point-Accepted mutations”)由Dayhoff等(1978)根据相近的序列进 行全局比对(global Alignment)产生的。其中PAM1是从差别不大于1%的序 列比对产生,其他的PAM矩阵都由PAM1外推得到,如PAM0、PAM10、 PAM250、PAM2000、… BLOSUM (blocks substitution matrix)由序列进行局部比对(local Alignment)产生,BLOSUM62是从差别不小于62%的序列比对产生,其余类 推,如BLOSUM30、BLOSUM80、…
生物信息学两两序列比对改
• If they are identical, a path along a diagonal can be drawn • Find the optimal subpaths, and add them up to achieve the best score. This involves --adding gaps when needed --allowing for conservative substitutions --choosing a scoring system (simple or complicated) • N-W is guaranteed to find optimal alignment(s)
Page 76
Three steps to global alignment with the Needleman-Wunsch algorithm
[1] set up a matrix
[2] score the matrix
[3] identify the optimal alignment(s)
N-W is guaranteed to find optimal alignments, although the algorithm does not search all possible alignments. It is an example of a dynamic programming algorithm: an optimal path (alignment) is identified by incrementally extending optimal subpaths. Thus, a series of decisions is made at each step of the alignment to find the pair of residues with the best score.
生物信息学两两序列比对
Outline: pairwise alignment
• Overview and examples • Definitions: homologs, paralogs, orthologs • Assigning scores to aligned amino acids: Dayhoff’s PAM matrices • Alignment algorithms: Needleman-Wunsch, Smith-Waterman
Page 52
Orthologs and paralogs are often viewed in a single tree
Source: NCBI
General approach to pairwise alignment
• Choose two sequences • Select an algorithm that generates a score • Allow gaps (insertions, deletions) • Score reflects degree of similarity • Alignments can be global or local • Estimate probability that the alignment occurred by chance
Page 52
Choose align two or more sequences…
Page 52
Enter the two sequences (as accession numbers or in the fasta format) and click BLAST. Optionally select “Algorithm parameters” and note the matrix option.
双序列比对算法
双序列比对算法双序列比对算法是一种常用的生物信息学算法,用于比较两个序列之间的相似性和差异性。
在生物学研究中,双序列比对算法被广泛应用于DNA序列、RNA序列和蛋白质序列的比对分析。
双序列比对算法的基本思想是将两个序列进行对齐,找出它们之间的相同和不同之处。
在对齐过程中,需要考虑到序列的长度、序列中的缺失和插入等因素,以确保比对结果的准确性。
常用的双序列比对算法包括全局比对算法、局部比对算法和半全局比对算法。
其中,全局比对算法适用于比较两个序列的整体相似性,局部比对算法适用于比较两个序列的局部相似性,而半全局比对算法则是全局比对算法和局部比对算法的结合。
在全局比对算法中,最常用的算法是Needleman-Wunsch算法和Smith-Waterman算法。
Needleman-Wunsch算法是一种动态规划算法,通过计算序列间的匹配得分和惩罚得分,找到两个序列之间的最佳匹配。
而Smith-Waterman算法则是一种局部比对算法,通过计算序列间的匹配得分和惩罚得分,找到两个序列中最相似的片段。
在局部比对算法中,最常用的算法是BLAST算法和FASTA算法。
BLAST算法是一种基于快速查找的算法,通过将序列分割成小片段,快速找到两个序列之间的相似片段。
而FASTA算法则是一种基于快速比对的算法,通过比较序列中的子序列,找到两个序列之间的最佳匹配。
在半全局比对算法中,最常用的算法是Gotoh算法和Hirschberg 算法。
Gotoh算法是一种动态规划算法,通过计算序列间的匹配得分和惩罚得分,找到两个序列之间的最佳匹配。
而Hirschberg算法则是一种分治算法,通过将序列分割成小片段,递归地比较两个序列之间的相似性。
双序列比对算法是生物信息学研究中不可或缺的工具,它可以帮助我们比较序列之间的相似性和差异性,从而更好地理解生物学现象。
在未来的研究中,我们可以进一步改进和优化双序列比对算法,以提高比对结果的准确性和速度。
两条序列比对与多序列比对
实验三:两条序列比对与多序列比对实验目的:学会使用MegAlign,ClustalX和MUSCLE进行两条序列和多条序列比对分析实验内容:双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式。
两条序列比对是生物信息学最基础的研究手段。
第一次实验我们用dotplot方法直观地认识了两条序列比对。
但是dotplot仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序列比对。
这里介绍进行两条序列比对的软件-MegAlign。
多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。
多序列比对的目标是发现多条序列的共性。
如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。
多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。
我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。
一、MegAlignDNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件,它包含了7个模块。
其中MegAlign可进行两条或多条序列比对分析。
1. 两条序列比对1.1 安装程序解压DNASTAR Lasergene软件压缩包,双击Lasergene710WinInstall.exe文件,按照默认路径安装软件到自己电脑上。
1.2 载入序列a.点击开始-程序-Lasergene-MegAlign,打开软件。
我们首先用演示序列(demo sequence)学习软件的使用。
演示序列所在位置:C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\。
b. 点击主菜单File—Enter sequence-选择序列所在文件夹,选择序列tethis21.seq和tethis22.seq,点击Add,这两条序列将出现在右侧selected sequences框中(Figure 3.1),选择完毕点击Done回到程序页面。
生物信息学中的序列比对
生物信息学中的序列比对序列比对是生物信息学领域中最基本的分析方法之一。
它是比较两个或多个基因组序列(DNA,RNA或蛋白质序列)的相似性和差异性的过程。
序列比对是理解生物学系统、基因组演化和基因表达调控的首要步骤。
序列比对的基本原理是将两个序列对齐并找出它们之间的匹配点,然后计算匹配点的相似性得分。
这个匹配点是由共同的核苷酸或氨基酸构成的,它们在序列中与匹配序列中的对应位置相同。
比对后的即为相似区域或保守区域,区域中的差异基本上包括插入、缺失和突变。
这些区域可以揭示两个序列之间的进化关系或功能差异。
序列比对的应用十分广泛。
它可以用于比较同一物种不同个体或不同品系之间的基因组序列;也可以用于比较物种间的基因组序列,了解它们之间的差异,推测它们之间的进化历史。
此外,序列比对也可以用于寻找重复序列、反转转录转座子或功能相关的序列元件。
序列比对在生物信息学研究中的作用不可低估。
随着技术的不断发展,目前有很多序列比对的软件和工具可供选择。
这些工具的选择取决于所需的比对类型、计算资源和准确性。
传统的序列比对方法主要基于动态规划(DP)算法,例如Smith-Waterman算法和Needleman-Wunsch算法。
这些算法可以找到最优的比对方案,但计算时间和计算资源的消耗较大。
因此,对于大规模基因组序列比对,这种方法变得不太可行。
随着第二代测序技术的发展,序列数据的数量迅速增加,有许多高通量的,快速且可扩展的序列比对工具被开发出来。
这些工具基于不同的比对策略,包括基于Hash函数、BWT(Burrows-Wheeler Transform)和FM索引的方法。
其中受到广泛应用的工具包括Bowtie2、BWA和STAR等。
除了传统的序列比对之外,还有一些新的比对方法——ribosome profiling(核糖体剖析法)。
核糖体剖析法是一种研究蛋白质翻译调控的技术,可以直接测量翻译过程中核糖体在mRNA 上的位置。
第四章:双序列比对
FASTA, K-tups with common offset
FASTA-Stages
3.
4.
5.
Rescan top 10 regions, score with PAM250 (proteins) or DNA scoring matrix. Trim off the ends of the regions to achieve highest scores. Try to join regions with gapped alignments. Join if similarity score is one standard deviation above average expected score After finding the best initial region, FASTA performs a global alignment of a 32 residue wide region centered on the best initial region, and uses the score as the optimized score.
概念1
双序列比对(pairwise alignment):指通过一定 的算法对两个DNA或蛋白质序列进行比较,找 出两者之间最大相似性匹配。这种算法是基于 序列本身的属性而不是关于该序列第注释信息。 目的是推测它们在结构、功能会进化上的联系。 (达尔文--自然选择) 理论基础:进化学说--如果两个序列之间具有 足够的相似性,就推测二者可能有共同的进化 祖先,经过序列内残基的替换、残基或序列片 段的缺失、以及序列重组等遗传变异过程分别 演化而来。 分为2类: 1. 基于序列的局部相似性 2. 基于序列第全局相似性
TGYAPPPWS
生物信息学 第四章 双序列比对
中可以利用计算机程序实现上述序列比对的基本算法。然而,序列比对不仅需要考虑子序列 之间的匹配,而且需要对整个序列进行比较。也就是说,必须考虑两个序列中所有残基的匹 配。这就意味着,不可能使所有残基都能严格匹配。在这种情况下,比对过程中确定空位的 过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹 配数。我们知道,空位的引入,意味着两个序列之间残基的插入或删除。如果对引入空位不 加限制,所得比对结果即使分值较高,也缺乏生物学依据。因此,必须有一种机制,对空位 的引入加以限制。常用的方法就是空位罚分,即每插入一空位就在总分值中罚去一定分值, 即加上一负分值,包括起始空位罚分和延伸空位罚分。所谓起始空位,是指序列比对时,在 一个序列中插入一个空位,使两个序列之间有更好的匹配;所谓延伸空位,是指在引入一个 或几个空位后,继续引入下一个连续的空位,使两个序列之间有更好的匹配。延伸空位罚分 值可以与起始空位罚分值相同,也可以比起始空位罚分值小。因此,序列比对最终结果的分 数值是两个序列之间匹配残基的总分值与空位罚分的总和。 上述序列比对过程中,只考虑了残基的同一性,即两个序列之间完全相同的匹配残基 数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为 1 和 0 的分数矩阵(见表 6.1),即相同残基的分数值为 1,不同残基的分数值为 0。这种矩阵通常称为稀疏矩阵,因 为矩阵大多数单元的值为 0。显然,这种单一的相似性分数矩阵具有很大局限性。改进分数 矩阵的表征性能,找出那些潜在的具有生物学意义的最佳匹配,提高数据库搜索的灵敏度, 而又不至于降低信噪比,是序列比对算法的核心。 相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建,是基于远距离 进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间相似性程度。恰当选 择相似性分数矩阵,可以提高序列比对的敏感度,特别是两个序列之间完全相同的残基数比 较少的情况下。必须说明,相似性分数矩阵有其固有的噪声,因为它们在对两个具有一定相 似性的不同残基赋予某个相似性分值时的同时,也引进了比对过程的噪声。这就意味着随着 微弱信号的增强,随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的 问题,而只对两个常用的相似性分数矩阵作简单介绍,即突变数据矩阵和残基片段替换矩阵。 4.7.1 突变数据矩阵 突变数据矩阵(Mutation Data Matrix,简称 MD,Dayhoff 等,1978)是基于单点可接 受突变的概念,即 Point Accepted Mutation,简称 PAM。1 个 PAM 的进化距离表示在 100 个 残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩 阵,可以通过对原始矩阵进行一定的数学处理获得。例如,PAM250 相似性分数矩阵相当于 在两个序列之间具有 20%的残基匹配。 在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机
序列比对(双序列比对)
2. 下载核酸或蛋白质序列分别放在 sequence1和sequence2中 3. 核酸使用blastn程序,蛋白使用blastp程序 4. 设置不同罚分值进行比对,比较结果 5. 自己选取 个序列来比对。 自己选取2个序列来比对 个序列来比对。
二:实验内容及操作步骤
1. 进入
/blast/bl 2seq/wblast2.cgi
2. 下载核酸或蛋白质序列分别放在 sequence1和sequence2中 3. 核酸使用blastn程序,蛋白使用blastp程序 4. 设置不同罚分值进行比对,比较结果
三:作业
1. 将以前作业中的基因的DNA序列和cDNA序 列下载下来,并运用BLAST2进行比对,根 据比对结果将该基因结构示意图画出来。
三:作业
2. 如果你获得了以下一段序列,请你说明这段序列是 DNA还是cDNA?是何物种的?列出其完整的DNA、 cDNA和蛋白质序列并绘出该基因的结构示意图 。如 果有功能请列出其功能并标出功能域。
cgcggttccg acggcgggga gggggcgagg tggggccgtg gcggcgagcc caccgacgga ggaggcggtg cagatgacgg agccgctcac caaggaggac ctcgtggcct acctcgtctc cgggtgcaag cccaaggaga actggagaat tggcacagaa catgagaagt tcggttttga agttgataca ttgcgtccta taaagtacga tcagatccgt gacatcctga atggacttgc tgagaggttt gattgggaca agatagttga agaaaataac gttatcggtc tcaagcaggg aaaacaaagc atttcactag aacctggcgg tcagtttgaa cttagtggtg ctcctcttga
1 双序列比对-
功能测定( 功能测定(function predicting) )
蛋白质序列间的高度相似性通常意味着同源序列间的功能相似 数据库搜索(database search)例如 blast。比对还是数据库搜 数据库搜索( ) 。 索算法的基础,将查询序列与整个数据库的所有序列进行比对, 索算法的基础,将查询序列与整个数据库的所有序列进行比对,从数 据库中获得与其最相似的序列的大量有价值的参考信息, 据库中获得与其最相似的序列的大量有价值的参考信息,对进一步分 析其结构和功能都会有很大的帮助。 析其结构和功能都会有很大的帮助。 随着生物信息学数据大量积累和生物学只是的整理, 随着生物信息学数据大量积累和生物学只是的整理,通过比对 可有效的分析和预测一些新发现基因的功能。 可有效的分析和预测一些新发现基因的功能。
2011-5-26 摘自《生物信息学》张阳德主编 科学出版社
序列比对可分为四种情况
• 假设有两条长度相近的,来自同一个母序列,它们之间非 假设有两条长度相近的,来自同一个母序列, 常相似,仅有细微差别,如字符插入、 常相似,仅有细微差别,如字符插入、字符的删除和字符 替换,要找出两条序列差别 两条序列差别。 替换,要找出两条序列差别。例如实验室同时测某个基因 序列, 的DNA序列,其结果可能不一样 序列 • 假设有两条序列,要求判定是否有一条序列的前缀与另一 假设有两条序列, 条序列的后缀相似,如果是则分别取出前缀和后缀, 条序列的后缀相似,如果是则分别取出前缀和后缀,该操 作常用于大规模DNA测序中序列片段的组装 测序中序列片段的组装 作常用于大规模 测序中序列片段的 • 假设有两条序列,要求判断其中的一条序列是否是另一条 假设有两条序列, 序列的子序列,这种操作常用于搜索特定的序列模式 序列的子序列,这种操作常用于搜索特定的序列模式 • 假设有两条序列,要求判断着两条序列中是否有非常相似 假设有两条序列, 的子序列,这种操作可用于分析保守序列 的子序列,这种操作可用于分析保守序列
双序列比对 生物基因
T:G = -2 T:T = 5 Score = 48
PAM( Accepted Point Mutation)矩阵
▪ 氨基酸记分系统需要替换的模式来提高灵敏度以检测弱的相 似性
▪ 氨基酸容易被其它生化、物理特性相似的氨基酸替换 ▪ PAM矩阵给出了进化过程中同源蛋白质从一个氨基酸变到
另一个氨基酸的似然率(Likelihood) ▪ PAM1(1个PAM单位)被定义为每100个残基出现一个被接
C
0.002 0.002 0.006 0.99
转换速率是颠换3倍时的模型
蛋白质计分矩阵
Sequence 1 Sequence 2
PTHPLASKTQILPEDLASEDLTI PTHPLAGERAIGLARLAEEDFGM
记分矩阵
CS T P A G N D . . C9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1 1 6 . .
对于数据库搜索来说一般选择BLOSUM62矩阵
PAM矩阵可用于寻找蛋白质的进化起源, BLOSUM矩阵用于发现蛋白质的保守域
空位罚分(Gap Penalties)
▪ 空位为了获得两个序列最佳比对,必须使用空位和 空位罚分
▪ 空位罚分分为:空位开放罚分(Gap opening penalty)和空位扩展罚分(Gap extension penalty)
同源序列与祖先序列关系
进化距离:一个序列变成另一个序列所需的步骤数。 如A变为B的进化距离为:x+y
基因进化
AB:物种I与物种II中的a1是直系同源,a1与a2为旁系同源 C:趋同进化,物种I与物种II经历不同的进化途径,产生相同的功能 D:基因转移,称为水平转移基因
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中可以利用计算机程序实现上述序列比对的基本算法。然而,序列比对不仅需要考虑子序列 之间的匹配,而且需要对整个序列进行比较。也就是说,必须考虑两个序列中所有残基的匹 配。这就意味着,不可能使所有残基都能严格匹配。在这种情况下,比对过程中确定空位的 过程变得十分复杂。最简单的办法使通过不加限制地插入空位的办法获得相同残基的最大匹 配数。我们知道,空位的引入,意味着两个序列之间残基的插入或删除。如果对引入空位不 加限制,所得比对结果即使分值较高,也缺乏生物学依据。因此,必须有一种机制,对空位 的引入加以限制。常用的方法就是空位罚分,即每插入一空位就在总分值中罚去一定分值, 即加上一负分值,包括起始空位罚分和延伸空位罚分。所谓起始空位,是指序列比对时,在 一个序列中插入一个空位,使两个序列之间有更好的匹配;所谓延伸空位,是指在引入一个 或几个空位后,继续引入下一个连续的空位,使两个序列之间有更好的匹配。延伸空位罚分 值可以与起始空位罚分值相同,也可以比起始空位罚分值小。因此,序列比对最终结果的分 数值是两个序列之间匹配残基的总分值与空位罚分的总和。 上述序列比对过程中,只考虑了残基的同一性,即两个序列之间完全相同的匹配残基 数目。可以把这种只考虑残基同一性的矩阵理解为一个分数值为 1 和 0 的分数矩阵(见表 6.1),即相同残基的分数值为 1,不同残基的分数值为 0。这种矩阵通常称为稀疏矩阵,因 为矩阵大多数单元的值为 0。显然,这种单一的相似性分数矩阵具有很大局限性。改进分数 矩阵的表征性能,找出那些潜在的具有生物学意义的最佳匹配,提高数据库搜索的灵敏度, 而又不至于降低信噪比,是序列比对算法的核心。 相似性分数矩阵就是为解决上述问题而产生的。相似性分数矩阵的构建,是基于远距离 进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间相似性程度。恰当选 择相似性分数矩阵,可以提高序列比对的敏感度,特别是两个序列之间完全相同的残基数比 较少的情况下。必须说明,相似性分数矩阵有其固有的噪声,因为它们在对两个具有一定相 似性的不同残基赋予某个相似性分值时的同时,也引进了比对过程的噪声。这就意味着随着 微弱信号的增强,随机匹配的可能性也会增大。本书不准备深入讨论有关相似性分数矩阵的 问题,而只对两个常用的相似性分数矩阵作简单介绍,即突变数据矩阵和残基片段替换矩阵。 4.7.1 突变数据矩阵 突变数据矩阵(Mutation Data Matrix,简称 MD,Dayhoff 等,1978)是基于单点可接 受突变的概念,即 Point Accepted Mutation,简称 PAM。1 个 PAM 的进化距离表示在 100 个 残基中发生一个可以接受的残基突变的概率。对应于一个更大进化距离间隔的突变概率矩 阵,可以通过对原始矩阵进行一定的数学处理获得。例如,PAM250 相似性分数矩阵相当于 在两个序列之间具有 20%的残基匹配。 在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机
M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -20
I
-2 -1 0 -2 -1 -3 -2 -2 -2 4
L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -34 V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2
或蛋白质家族的完整性(completeness)进行预测。例如,假定某个基因家族的 10 个成员在 鼠中已知,而在人中只找到 7 个,那么很有可能还有 3 个成员在人的基因组中有待发现。这 些分析结果还可用于药理学和分子生物学研究,用来解释某些受体对某种药物的特殊反应, 尽管这些受体的序列在人基因组中还没有测得。它可以为分子生物学家以鼠的序列数据为模 板克隆人的该基因的受体提供可能性。 为了能够更有效地分析数据库搜索结果,有必要对序列比对的基本原理和数据库搜索 的常用算法和有一个比较详细的介绍。 4.3 字母表和复杂度 核酸和蛋白质序列可以看成是由字母表中选出的字母组成的。一个字母表的复杂度定 义为它所包含的不同字母的数目。例如英语字母表的复杂度是 26;DNA 序列的字母表复杂 度是 4。假定序列中含有不确定的碱基 N(例如表达序列标签 EST),则其复杂度为 5。蛋白 质序列由 20 种氨基酸残基组成,其复杂度为 20。若某个残基未定,则用 X 表示。有时用 B 表示天冬酰胺或天冬氨酸,若用三字符表示,则写成 Asx;用 Z 表示谷氨酰胺或谷氨酸,若 用三字符表示,则写成 Glx。有些序列比对程序对这些特殊残基进行预处理。本章中将不涉 及这些特殊残基,只讨论由 20 中普通氨基酸组成的蛋白质序列。 4.4 算法和程序 在开始介绍序列比对的基本原理前,有必要分清算法和程序之间的区别。所谓算法, 是指按照一定的方式描述计算过程或处理某个问题的一系列步骤,而程序则是算法的具体实 现,也就是用某种计算机语言编写的实现某个算法的一在组指令集合。一个算法可能会有多 种实现的方法。如果算法的描述或定义明确,那么这些不同的实现方法,即不同的程序应给 出同样的结果。然而,对某个算法可能有不同的理解,在具体实现时,可能会有一定的区别。 4.5 双序列比对简例 首先,我们用一个简单的例子说明序列比对的基本原理。图 6.1 所示是对两个蛋白质序 列片段进行比对的一般方法,基本思想是将两个序列上下排列,若上下对应的残基相同,则 用竖线表示。可以通过插入空位(gap)使上下两个序列具有最好的匹配,即两个序列之间
出现的概率的比值的矩阵。这些比值可以用相关几率(relatedness odds)矩阵表示。在序列 比对过程中,两个序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个比对的分值。 在实际使用时,通常取几率值的对数以简化运算。因此,常用的突变数据矩阵 PAM250 实 际上是几率值的对数矩阵(表 6.2)。矩阵中值大于 0 的元素所对应的两个残基之间发生突变 的可能性较大,值小于 0 的元素所对应的两个残基之间发生突变的可能性较小。 表 6.2 突变数据相似性分数矩阵 PAM250 C 12 S 0 2 3 0 1 6 1 2 5 0 1 0 2 2 1 4 3 2 1 4 2 1 4 3 6 2 0 6 3 5 0 6
T -2 1 P A -3 1 -2 1
G -3 1 N D E -4 1 -5 0 -5 0
0 -1 1 0 -1 0 0 -1 0 0 -1 0
Q -5 -1 -1 0 H R K
0 -1 1
-3 -1 -1 0 -1 -2 2
-4 0 -1 0 -2 -3 0 -1 -1 1 -5 0 0 -1 -1 -2 1 0 0 1
第四章
4.1 引言
双序列比对
本章介绍序列比对时常用的几个概念,包括同一性(identity)、相似性(similarity)同 源性(homology)等。这些概念,在蛋白质和核酸序列比对时经常使用。双序列比对(pairwise alignement)是指通过一定的算法对两个 DNA 或蛋白质序列进行比对分析,从而找出两者 之间最大相似性匹配。双序列比对是序列分析常用方法之一,是多序列比对和数据库搜索的 基础。双序列比对基于一定的算法,而这些算法是基于序列本身的属性而不是关于该序列的 注释信息。双序列比对基本上可以分为两类,一类是基于序列的局部相似性,而另一类则基 于序列的全局相似性。两者之间无论是生物学基础,还是所用的算法,都有很大区别。 4.2 数据库检索和数据库搜索 数据库检索(database query)和数据库搜索(database search)是分子生物信息学中两 个不同的概念,有时常被混淆,有必要把这两个术语作简单说明。所谓数据库检索,是指对 序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如,对核酸或蛋白质 数据库输入关键词“human adrenergic recptors”(人的肾上腺素受体),即可找出数据库中所 有和人的肾上腺素受体有关的序列条目。数据库查询有时也称数据库检索,它和因特网上通 过搜索引擎查找需要的信息是一个概念。而数据库搜索是指通过特定的序列相似性比对算
下一步,则可以计算相同残基个数,并用分数给出定量指标。如图 6.1 中未经比对以前 的得分为 6,而比对后的得分为 9。 显然,从这个例子中可以看出,匹配对准的相同残基数越多,两个序列之间相似性比 对的得分就越高。当然,这只是一个用来说明比对原理的简单例子,序列很短,只有 10 来 个残基,而大多数蛋白质序列的长度为 200 到 500 个残基,甚至更长。其次,这两个序列的 长度几乎相等,而在实际情况下代查序列和目标序列的长度往往差别很大。此外,这两个序 列的大部分残基相同,没有其它可选择的匹配方式。 另一方面,序列比对结果也可以根据引入空位的数目和非匹配残基的数目来度量。由 此而引出距离矩阵的概念,即可以用距离矩阵的方式表示两个序列之间的相似性距离。序列 比对所用的距离矩阵可能不止一个,同一算法的不同实现所用的距离矩阵可能会有所不同。 4.6 子序列 为了进一步说明序列比对的基本原理,下面我们用一对比较接近实际的序列。假定序 列 A 有 400 个残基,序列 B 有 650 个残基。如果序列 A 与序列 B 的一部分相同,则可以认 为 A 是 B 的子序列。此时,只要在适当部位插入空位,就可以使序列 A 和序列 B 完全匹配。 假定序列 A 中有两个片段分别与序列 B 中的两个片段相同。通过序列比对,可以找出 这些相同片段,并在序列 A 中插入空位,使序列 A 与序列 B 有最大的匹配,如图 6.2(b) 所示。此时,可以找出序列 A 与序列 B 之间具有最好匹配的子序列。利用简单的渐进算法, 可以直接实现上述比对,因为两个序列之间的相似片段比较明显。 4.7 同一性和相似性 上述序列比对实例只是简要说明了如何找出两个序列之间完全相同的片段。实际操作
法,找出核酸或蛋白质序列数据库中与代查序列(query sequence)具有一定程度相似性的
序列。例如,给定人的肾上腺素受体序列,通过数据库搜索,在核酸或蛋白质序列数据库中 找出与该代查序列具有一定相似性的序列。显然,数据库检索和数据库搜索是在生物信息学 中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同。 基于文字注释信息的数据库检索是核酸和蛋白质序列分析的一个重要组成部分,这一 点不应予以忽略。然而,在生物信息学应用研究中,我们经常面临的问题是已经测得一个核 酸序列片段,或一个由核酸序列翻译得到的蛋白质序列片段,而尚无注释信息。此时,数据 库搜索就成了确定对该序列进一步分析研究的有效方法。本章将重点介绍序列比对的基本概