生物信息学 第七章:序列比对和数据库搜索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章:序列比对和数据库搜索
Gregory D.Schuler
National Center for Biotechnology Information
National Library of Medicine. National Institutes of Health
Bethesda. Maryland
引言
在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,
从而提出了自然选择学说。今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在第八章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,
从而使可供比较的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础
进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。值得注意的是,相似性和同源性虽然在
某种程度上具有一致性,但它们是完全不同的两个概念。相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。
如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%
的相似性。
由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实上,我们无法得知这个祖先序列到底是什么样子,除非能
够从化石中获得它的DNA,我们所能够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括取代、插入以及缺失。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取代的情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序
Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins
Edited by A.D.Baxevanis and B.F.F.Ouellette
ISBN 0-471-19196-5.pages 145-171. Copyright© 1998 Wiley-Liss. Inc.
列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对时用连续的短线填补。如图7.1,在序列比对中,发现了5个空位。
|------ S-S-------*|
Mouse IVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------SRIQV
Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI
*
Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA
Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ |---- S-S--------|
Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE ◇ *|-------------S-S------------------|
Mouse GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-- 图7.1、保守位点通常在功能上极为重要。对老鼠的胰蛋白酶(Swiss-Prot
P07146)和小龙虾的胰蛋白酶(Swiss-Prot P00765)作比对,相同的残基用下标线标出,在比对上方标出的是三个二硫键(-S-S),这些二硫键中的半胱氨酸
残基极为保守,打星号的残基的侧链参与电荷传递系统,打菱形符号的活性位点的残基负责底物的特异性。
在残基-残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图7.1所示,处于活性位点的残基都是极为保守的,比如形成二硫键
的半胱氨酸,参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重要,另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。当我们处理非常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的反映,比
如,mouse和rat的某些序列具有高度的相似性,可能仅仅是因为没有足够的时
间进行分化而已。尽管如此,系列比对仍然是从已知获得未知的一个十分有用的方法,比如通过比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的某些性质。必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论还必须经过实验验证。
当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进化历程,从而我们判断他们会具有相似的生物学功能,但是,这个推
断在成为结论之前必须经过实验的验证。例如,ζ-晶状物是脊椎动物眼睛里晶状体基质的组成部分,根据序列相似性的基础,它在E.coli中的同源物是代谢酶