序列相似性和序列对比
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
பைடு நூலகம்
序列分析的困难
从蛋白质序列推导结构和功能。
当我们得到一个蛋白质序列之后,从序列推导 它的结构遇到的困难很大。 最后,即使已经测定了蛋白质的三级结构,目 前还没有任何技术可以从它们的结构推导出 其功能特性。
序列分析可以做些什么?
从数据库中查找相似序列。
在我们刚刚测定了一个感兴趣的DNA序列后,提出的第一个问 题很可能就是“是否有人见过与此相似的序列?”。今天的国 际互联网上已经有人很成功的将所有已经测定的序列收集起 来供人查找。在DNA序列的收集方面主要靠三个小组的通力 合作,他们一个在日本,一个在欧洲,还有一个在美国,形 成三个大的数据库,分别是DDBJ、EMBL和GeneBank。这 些数据库不断的相互交流数据,使各数据库的数据保持一 致。因此查找任何其中一个,就等于查找所有三个。
序列分析的困难
编码区不连续:
内含子、外显子。 编码蛋白质的DNA并不是连续的,而是在其中 分布有许多叫做“内含子”的分隔区。大多数情 况下,这个问题可以通过测定mRNA(cDNA) 的序列来解决,因为cDNA中所含的非编码的 额外部分很少,而原来被分隔开的外显子 (exons)在mRNA(cDNA) 中已经被连接成为 一个连续的片段。当然,在某些特殊情况 下,难以分析RNA而只能分析DNA本身。
序列比较是如何进行的?
-------打分矩阵(Scoring Matrix)
简单打分矩阵:单一打分矩阵和遗传密码 打分矩阵。目前使用最简单的打分矩阵就是 匹配打分矩阵(identity matrix)。如果两个氨 基酸相同,就打一个分值,不同就打另一个 分值,不管替换的情况。例如,相同就打1 分,不同就打0分,这就是最简单常用的单一 打分矩阵。当然,也可以相同打+6分,不同 打-1分。
序列分析可以做些什么?
序列排比,推导进化树、结构、功能。
尽管不可能完全从蛋白质序列本身推测其功能或结构,但在一 定程度上还是可以做到的,尤其当未知结构与功能的蛋白质能 与已知结构功能的蛋白质序列做比较时,更是如此;其次,目 前的分析就算不能得出蛋白质结构与功能的最终结果,也可以 为将来的进一步分析提供参考;第三,通过比较不同种生物等 位蛋白的序列(这些等位蛋白被称为“同源的”),可以勾画出这些 物种的进化树。
序列比较是如何进行的?
同源性(homology): 只有当两个蛋白质在进化关系上具有共同的祖 先时,才可称它们为同源的。
序列比较是如何进行的?
要分析两个序列是否相似,必须首先作对比分析(alignment)。 如何作对比分析? 最基本的条件是对序列的相似性做定量分析,然后将序列进行排 比,在排比中要用到: Gaps (间距)或Insertions(插入), Substitutions(取代)。 对gaps和insertions打分可用较简单的扣分方案,而substitutions 的打分则比较复杂,必须先构建出一个计算机的算法矩阵 (Matrix),再根据此方案对序列中氨基酸残基之间的差异或相似 进行打分。
MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND
序列比较是如何进行的?
相似性(similarity): 通常在某些位点上有一些氨基酸被另外一些化 学物理特性相近的氨基酸所代替,这种突变 可称为保守突变。将保守突变的因素考虑在 内,就可以定义各种打分方案(scoring schemes)对两序列的相似程度打分,所得分 值即代表其相似的程度。
序列比较的生物学基础
遗传密码——三联子
mRNA上每3个核苷酸翻译成蛋白质多肽链上的一个氨基酸, 这3个核苷酸就称为一个密码,也叫三联子密码。翻译时从 起始密码子AUG开始,沿mRNA5’→3’的方向连续阅读直到 终止密码子,生成一条具有特定序列的多肽链。 mRNA中只有4种核苷酸,而蛋白质中有20种氨基酸,若以一 种核苷酸代表一种氨基酸,只能代表4种(4^1=4)。若以两种 核苷酸作为一个密码(二联子),能代表4^2=16种氨基酸。 而假定以3个核苷酸代表一个氨基酸,则可以有4^3=64种密 码,满足了编码20种氨基酸的需要。
序列比较的生物学基础
形成6个开放读码框
由于氨基酸是由三联密码子编码的,因此 DNA序列就包含三个不同的开放读码框,取 决于从第一、第二或第三位核苷酸开始(第四 位和第一位同框)。而双链DNA的两条链都可 以转录RNA,后者翻译蛋白质。因此,一个 DNA序列及其互补链可以有6个不同的读码框 (reading frames)。
序列比较的生物学基础
蛋白质由20种氨基酸组成的多肽折叠而成。蛋白质 由20种不同的氨基酸组成不同长度的聚合体,也称 为肽或多肽。由这种线性拓朴结构的聚合体折叠起 来产生形状各异的不同蛋白质,不同的形状以及20 种氨基酸的化学特性决定了蛋白质的功能。现代生 物学中的一个很主要的概念是,蛋白质的功能特性 主要决定于线性多肽链中20种氨基酸的序列。由于 大多数蛋白质都是自身折叠而成,所以理论上知道 了一个蛋白质的序列后即可推导出其功能。
序列比较是如何进行的?
-------打分矩阵(Scoring Matrix)
因为所有的点突变都产生于核苷酸的变化, 因此对比中氨基酸对的相关性是随机的还是 遗传的应处决于由一个密码子转变为另一密 码子所必需的点突变的数量。由这一模型而 产生的打分矩阵将根据导致密码子改变所需 改变核苷酸的数量来定义两个氨基酸之间的 距离,此为遗传密码子打分矩阵(genetic code matrix)。与匹配打分模型相比,它改进 了排比中的灵敏度和专一性。
遗传密码子打分矩阵(A genetic code matrix) A B C 3.0 2.0 1.0 3.0 1.0 3.0 D 2.0 3.0 1.0 3.0 E 2.0 2.0 0.0 2.0 3.0 F 1.0 1.0 2.0 1.0 0.0 3.0 G 2.0 2.0 2.0 2.0 2.0 1.0 3.0 H 1.0 2.0 1.0 2.0 1.0 1.0 1.0 3.0 I 1.0 2.0 1.0 1.0 1.0 2.0 1.0 1.0 3.0 K 1.0 2.0 0.0 1.0 2.0 0.0 1.0 1.0 2.0 3.0 L 1.0 1.0 1.0 1.0 1.0 2.0 1.0 2.0 2.0 1.0 3.0 M N P Q R S T V W Y Z . 1.0 1.0 2.0 1.0 1.0 2.0 2.0 2.0 1.0 1.0 2.0 A 1.0 3.0 1.0 2.0 1.0 2.0 2.0 2.0 0.0 2.0 2.0 B 0.0 1.0 1.0 0.0 2.0 2.0 1.0 1.0 2.0 2.0 0.0 C 0.0 2.0 1.0 1.0 1.0 1.0 1.0 2.0 0.0 2.0 2.0 D 1.0 1.0 1.0 2.0 1.0 1.0 1.0 2.0 1.0 1.0 3.0 E 1.0 1.0 1.0 0.0 1.0 2.0 1.0 2.0 1.0 2.0 0.0 F 1.0 1.0 1.0 1.0 2.0 2.0 1.0 2.0 2.0 1.0 2.0 G 0.0 2.0 2.0 2.0 2.0 1.0 1.0 1.0 0.0 2.0 2.0 H 2.0 2.0 1.0 1.0 2.0 2.0 2.0 2.0 0.0 1.0 1.0 I 2.0 2.0 1.0 2.0 2.0 1.0 2.0 1.0 1.0 1.0 2.0 K 2.0 1.0 2.0 2.0 2.0 2.0 1.0 2.0 2.0 1.0 2.0 L 3.0 1.0 1.0 1.0 2.0 1.0 2.0 2.0 1.0 0.0 1.0 M 3.0 1.0 1.0 1.0 2.0 2.0 1.0 0.0 2.0 2.0 N 3.0 2.0 2.0 2.0 2.0 1.0 1.0 1.0 2.0 P 3.0 2.0 1.0 1.0 1.0 1.0 1.0 3.0 Q 3.0 2.0 2.0 1.0 2.0 1.0 2.0 R 3.0 2.0 1.0 2.0 2.0 1.0 S 3.0 1.0 1.0 1.0 1.0 T 3.0 1.0 1.0 2.0 V 3.0 1.0 1.0 W 3.0 1.0 Y 3.0 Z
序列比较的生物学基础
什么决定蛋白质的氨基酸序列?分子生物学 的中心内容就是描述我们从父母获得的遗传 信息是如何储存于DNA中,它们是如何被用 于复制相同的DNA副本,如何从DNA转录到 RNA再翻译到蛋白质的。
序列比较的生物学基础
DNA由4种脱氧核苷酸组成: ATGC。DNA是由4种脱氧核苷酸 形成的线性多聚体,这4种核苷酸是:
序列相似性的概念
在对一个新测定的DNA序列进行分析时, 比如分析的结果是:这个序列与某种细菌的 ATPase相似。这是否意味着这个未知序列就 是一个ATPase?答案是不能确定的。所以就 必须完全理解在序列水平上“相似性”或“同源 性”是如何定义的。
序列对比是如何进行的?
一致性(identity): 两个蛋白质有一定数量的氨基酸在对比的位点 上是相同的,即如果38个氨基酸的蛋白质中 15个位点相同,我们说它们39.4%相同 (39.4%)
序列比较的生物学基础
4种核苷酸组成64个三联密码子。
4种核苷酸可以组成64个不同的三联密码子(triplet codes),用于编码20种氨基酸绰绰有余。其中三个 为终止密码子,代表多肽序列的末端,一种氨基酸 可以由1~6个三联密码子编码。由多个密码子编码 的氨基酸,不同密码子的使用频率并不相等,这种 使用频率的不同分布称为“密码子偏好”(coden usage)。不同种的生物密码子偏好不同。
序列相似性的概念
序列对比(aligment)是序列分析的基础,其他
一切都建立在序列排比的基础上。 ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCAAGCTGCTAGCTAG ______________ __________________
序列比较的生物学基础
序列测定。 可以用化学方法测定蛋白质的氨基酸序列以及DNA和 RNA的核苷酸序列。可是,就目前来说,测定DNA 的核苷酸序列比测定RNA序列和蛋白质序列容易的 多。由于蛋白质序列可以由编码它的DNA序列推导 出来,许多已知的蛋白质序列其实就是从DNA序列 推导出来的。将mRNA转为DNA(cDNA)是一个简单 的实验技术,因此RNA分子的序列通常是以cDNA 序列测定的。序列分析其实就是从已知蛋白质、 RNA、DNA序列作出生物学推论的过程。
序列相似性的概念
序列对比的目的:
序列对比是推导蛋白质二级结构的基础 是初步蛋白质功能推断的基础 可用于蛋白质三级结构的推导 可用于推导进化树和解释种间亲缘关系 用于分析分子水平的选择压力(selective pressure) 探测序列之间的相互关系 探测启动子等基因调控单元
序列比较的生物学基础
构成生命的基本单位是蛋白质。而作为在细 胞中催化各种化学反应的分子机器的酶,也 是蛋白质。另外,细胞的许多结构也是蛋白 质组成的。连非蛋白质的构成部分也是由属 于蛋白质的酶所催化生产的。一个人体含有 大约100,000种不同的蛋白质,正是这 100,000种蛋白质的特性及其相互作用使我们 无所不能。
腺嘌呤脱氧核苷单磷酸 (deoxyAdenosine monophosphate, A)、 胸腺嘧啶脱氧核苷单磷酸 (deoxyThymidine monophosphate, T)、 鸟嘌呤脱氧核苷单磷酸 (deoxyGuanosine monophosphate, G)、 胞嘧啶脱氧核苷单磷酸 (deoxyCytidine monophosphate, C)。
序列分析的困难
技术欠缺 DNA非编码区比编码区多 编码区不连续:内含子、外显子 mRNA非编码区、tRNA、SnRNA 从DNA序列推导蛋白质序列 从蛋白质序列推导结构和功能 二级结构: alpha helix、beta sheet 超级二级结构、三级结构、四级结构 为什么结构命名如此复杂? 结构决定功能、实验方法欠缺 蛋白质三级结构推导的基础 目前不能从结构推导功能
打分矩阵(Scoring Matrix)
对氨基酸对相似性的尺度衡量,例如苯丙氨酸(Phe)和 异亮氨酸(Ile)相似性的定量标准,可以以多种方式 来定义。因此,设计一个打分矩阵,首先必须确定 用什么算法模型。在序列排比分析中,打分矩阵只 是某个算法模型的量化表现,排比的结果只在该算 法模型所划定的范围内有意义。
序列比较的生物学基础
RNA则是由A、U、G、C,4种核苷酸形成的相似 线性多聚体,这4种核苷酸是:
腺嘌呤核苷单磷酸(Adenosine monophosphate, A)、 尿嘧啶核苷单磷酸(Uridine monophosphate, U)、 鸟嘌呤核苷单磷酸(Guanosine monophosphate, G) 胞嘧啶核苷单磷酸(Cytidine monophosphate, C)。
序列比较是如何进行的?
要对两个序列进行对比,必须首先打出其相似性的 定量分值,于是需要一个打分矩阵。 打分矩阵(Scoring Matrix): 给不同的氨基酸对定义的一系列相似性分值。对氨 基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮 氨酸相似性的定量标准,可以以多种方式来定义。
序列比较是如何进行的?
序列相似性的概念
序列排对比具有上述强大功能的原因是, 人们发现,假如两个生物大分子的序列足够 相似,几乎毫无疑问(当然不是绝对)它们具有 相似的生物学功能,并且可能是同源的。
序列相似性的概念
在序列中编码功能的句法和语义中具有两个重 要的特征: 功能被编码于序列之中,即序列提供了句法。 编码具有一定的冗余度(redundancy),即序列中一 些位点的改变可以保持功能不变,这就使编码具有 强劲的语义。
序列分析的困难
从蛋白质序列推导结构和功能。
当我们得到一个蛋白质序列之后,从序列推导 它的结构遇到的困难很大。 最后,即使已经测定了蛋白质的三级结构,目 前还没有任何技术可以从它们的结构推导出 其功能特性。
序列分析可以做些什么?
从数据库中查找相似序列。
在我们刚刚测定了一个感兴趣的DNA序列后,提出的第一个问 题很可能就是“是否有人见过与此相似的序列?”。今天的国 际互联网上已经有人很成功的将所有已经测定的序列收集起 来供人查找。在DNA序列的收集方面主要靠三个小组的通力 合作,他们一个在日本,一个在欧洲,还有一个在美国,形 成三个大的数据库,分别是DDBJ、EMBL和GeneBank。这 些数据库不断的相互交流数据,使各数据库的数据保持一 致。因此查找任何其中一个,就等于查找所有三个。
序列分析的困难
编码区不连续:
内含子、外显子。 编码蛋白质的DNA并不是连续的,而是在其中 分布有许多叫做“内含子”的分隔区。大多数情 况下,这个问题可以通过测定mRNA(cDNA) 的序列来解决,因为cDNA中所含的非编码的 额外部分很少,而原来被分隔开的外显子 (exons)在mRNA(cDNA) 中已经被连接成为 一个连续的片段。当然,在某些特殊情况 下,难以分析RNA而只能分析DNA本身。
序列比较是如何进行的?
-------打分矩阵(Scoring Matrix)
简单打分矩阵:单一打分矩阵和遗传密码 打分矩阵。目前使用最简单的打分矩阵就是 匹配打分矩阵(identity matrix)。如果两个氨 基酸相同,就打一个分值,不同就打另一个 分值,不管替换的情况。例如,相同就打1 分,不同就打0分,这就是最简单常用的单一 打分矩阵。当然,也可以相同打+6分,不同 打-1分。
序列分析可以做些什么?
序列排比,推导进化树、结构、功能。
尽管不可能完全从蛋白质序列本身推测其功能或结构,但在一 定程度上还是可以做到的,尤其当未知结构与功能的蛋白质能 与已知结构功能的蛋白质序列做比较时,更是如此;其次,目 前的分析就算不能得出蛋白质结构与功能的最终结果,也可以 为将来的进一步分析提供参考;第三,通过比较不同种生物等 位蛋白的序列(这些等位蛋白被称为“同源的”),可以勾画出这些 物种的进化树。
序列比较是如何进行的?
同源性(homology): 只有当两个蛋白质在进化关系上具有共同的祖 先时,才可称它们为同源的。
序列比较是如何进行的?
要分析两个序列是否相似,必须首先作对比分析(alignment)。 如何作对比分析? 最基本的条件是对序列的相似性做定量分析,然后将序列进行排 比,在排比中要用到: Gaps (间距)或Insertions(插入), Substitutions(取代)。 对gaps和insertions打分可用较简单的扣分方案,而substitutions 的打分则比较复杂,必须先构建出一个计算机的算法矩阵 (Matrix),再根据此方案对序列中氨基酸残基之间的差异或相似 进行打分。
MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND
序列比较是如何进行的?
相似性(similarity): 通常在某些位点上有一些氨基酸被另外一些化 学物理特性相近的氨基酸所代替,这种突变 可称为保守突变。将保守突变的因素考虑在 内,就可以定义各种打分方案(scoring schemes)对两序列的相似程度打分,所得分 值即代表其相似的程度。
序列比较的生物学基础
遗传密码——三联子
mRNA上每3个核苷酸翻译成蛋白质多肽链上的一个氨基酸, 这3个核苷酸就称为一个密码,也叫三联子密码。翻译时从 起始密码子AUG开始,沿mRNA5’→3’的方向连续阅读直到 终止密码子,生成一条具有特定序列的多肽链。 mRNA中只有4种核苷酸,而蛋白质中有20种氨基酸,若以一 种核苷酸代表一种氨基酸,只能代表4种(4^1=4)。若以两种 核苷酸作为一个密码(二联子),能代表4^2=16种氨基酸。 而假定以3个核苷酸代表一个氨基酸,则可以有4^3=64种密 码,满足了编码20种氨基酸的需要。
序列比较的生物学基础
形成6个开放读码框
由于氨基酸是由三联密码子编码的,因此 DNA序列就包含三个不同的开放读码框,取 决于从第一、第二或第三位核苷酸开始(第四 位和第一位同框)。而双链DNA的两条链都可 以转录RNA,后者翻译蛋白质。因此,一个 DNA序列及其互补链可以有6个不同的读码框 (reading frames)。
序列比较的生物学基础
蛋白质由20种氨基酸组成的多肽折叠而成。蛋白质 由20种不同的氨基酸组成不同长度的聚合体,也称 为肽或多肽。由这种线性拓朴结构的聚合体折叠起 来产生形状各异的不同蛋白质,不同的形状以及20 种氨基酸的化学特性决定了蛋白质的功能。现代生 物学中的一个很主要的概念是,蛋白质的功能特性 主要决定于线性多肽链中20种氨基酸的序列。由于 大多数蛋白质都是自身折叠而成,所以理论上知道 了一个蛋白质的序列后即可推导出其功能。
序列比较是如何进行的?
-------打分矩阵(Scoring Matrix)
因为所有的点突变都产生于核苷酸的变化, 因此对比中氨基酸对的相关性是随机的还是 遗传的应处决于由一个密码子转变为另一密 码子所必需的点突变的数量。由这一模型而 产生的打分矩阵将根据导致密码子改变所需 改变核苷酸的数量来定义两个氨基酸之间的 距离,此为遗传密码子打分矩阵(genetic code matrix)。与匹配打分模型相比,它改进 了排比中的灵敏度和专一性。
遗传密码子打分矩阵(A genetic code matrix) A B C 3.0 2.0 1.0 3.0 1.0 3.0 D 2.0 3.0 1.0 3.0 E 2.0 2.0 0.0 2.0 3.0 F 1.0 1.0 2.0 1.0 0.0 3.0 G 2.0 2.0 2.0 2.0 2.0 1.0 3.0 H 1.0 2.0 1.0 2.0 1.0 1.0 1.0 3.0 I 1.0 2.0 1.0 1.0 1.0 2.0 1.0 1.0 3.0 K 1.0 2.0 0.0 1.0 2.0 0.0 1.0 1.0 2.0 3.0 L 1.0 1.0 1.0 1.0 1.0 2.0 1.0 2.0 2.0 1.0 3.0 M N P Q R S T V W Y Z . 1.0 1.0 2.0 1.0 1.0 2.0 2.0 2.0 1.0 1.0 2.0 A 1.0 3.0 1.0 2.0 1.0 2.0 2.0 2.0 0.0 2.0 2.0 B 0.0 1.0 1.0 0.0 2.0 2.0 1.0 1.0 2.0 2.0 0.0 C 0.0 2.0 1.0 1.0 1.0 1.0 1.0 2.0 0.0 2.0 2.0 D 1.0 1.0 1.0 2.0 1.0 1.0 1.0 2.0 1.0 1.0 3.0 E 1.0 1.0 1.0 0.0 1.0 2.0 1.0 2.0 1.0 2.0 0.0 F 1.0 1.0 1.0 1.0 2.0 2.0 1.0 2.0 2.0 1.0 2.0 G 0.0 2.0 2.0 2.0 2.0 1.0 1.0 1.0 0.0 2.0 2.0 H 2.0 2.0 1.0 1.0 2.0 2.0 2.0 2.0 0.0 1.0 1.0 I 2.0 2.0 1.0 2.0 2.0 1.0 2.0 1.0 1.0 1.0 2.0 K 2.0 1.0 2.0 2.0 2.0 2.0 1.0 2.0 2.0 1.0 2.0 L 3.0 1.0 1.0 1.0 2.0 1.0 2.0 2.0 1.0 0.0 1.0 M 3.0 1.0 1.0 1.0 2.0 2.0 1.0 0.0 2.0 2.0 N 3.0 2.0 2.0 2.0 2.0 1.0 1.0 1.0 2.0 P 3.0 2.0 1.0 1.0 1.0 1.0 1.0 3.0 Q 3.0 2.0 2.0 1.0 2.0 1.0 2.0 R 3.0 2.0 1.0 2.0 2.0 1.0 S 3.0 1.0 1.0 1.0 1.0 T 3.0 1.0 1.0 2.0 V 3.0 1.0 1.0 W 3.0 1.0 Y 3.0 Z
序列比较的生物学基础
什么决定蛋白质的氨基酸序列?分子生物学 的中心内容就是描述我们从父母获得的遗传 信息是如何储存于DNA中,它们是如何被用 于复制相同的DNA副本,如何从DNA转录到 RNA再翻译到蛋白质的。
序列比较的生物学基础
DNA由4种脱氧核苷酸组成: ATGC。DNA是由4种脱氧核苷酸 形成的线性多聚体,这4种核苷酸是:
序列相似性的概念
在对一个新测定的DNA序列进行分析时, 比如分析的结果是:这个序列与某种细菌的 ATPase相似。这是否意味着这个未知序列就 是一个ATPase?答案是不能确定的。所以就 必须完全理解在序列水平上“相似性”或“同源 性”是如何定义的。
序列对比是如何进行的?
一致性(identity): 两个蛋白质有一定数量的氨基酸在对比的位点 上是相同的,即如果38个氨基酸的蛋白质中 15个位点相同,我们说它们39.4%相同 (39.4%)
序列比较的生物学基础
4种核苷酸组成64个三联密码子。
4种核苷酸可以组成64个不同的三联密码子(triplet codes),用于编码20种氨基酸绰绰有余。其中三个 为终止密码子,代表多肽序列的末端,一种氨基酸 可以由1~6个三联密码子编码。由多个密码子编码 的氨基酸,不同密码子的使用频率并不相等,这种 使用频率的不同分布称为“密码子偏好”(coden usage)。不同种的生物密码子偏好不同。
序列相似性的概念
序列对比(aligment)是序列分析的基础,其他
一切都建立在序列排比的基础上。 ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCAAGCTGCTAGCTAG ______________ __________________
序列比较的生物学基础
序列测定。 可以用化学方法测定蛋白质的氨基酸序列以及DNA和 RNA的核苷酸序列。可是,就目前来说,测定DNA 的核苷酸序列比测定RNA序列和蛋白质序列容易的 多。由于蛋白质序列可以由编码它的DNA序列推导 出来,许多已知的蛋白质序列其实就是从DNA序列 推导出来的。将mRNA转为DNA(cDNA)是一个简单 的实验技术,因此RNA分子的序列通常是以cDNA 序列测定的。序列分析其实就是从已知蛋白质、 RNA、DNA序列作出生物学推论的过程。
序列相似性的概念
序列对比的目的:
序列对比是推导蛋白质二级结构的基础 是初步蛋白质功能推断的基础 可用于蛋白质三级结构的推导 可用于推导进化树和解释种间亲缘关系 用于分析分子水平的选择压力(selective pressure) 探测序列之间的相互关系 探测启动子等基因调控单元
序列比较的生物学基础
构成生命的基本单位是蛋白质。而作为在细 胞中催化各种化学反应的分子机器的酶,也 是蛋白质。另外,细胞的许多结构也是蛋白 质组成的。连非蛋白质的构成部分也是由属 于蛋白质的酶所催化生产的。一个人体含有 大约100,000种不同的蛋白质,正是这 100,000种蛋白质的特性及其相互作用使我们 无所不能。
腺嘌呤脱氧核苷单磷酸 (deoxyAdenosine monophosphate, A)、 胸腺嘧啶脱氧核苷单磷酸 (deoxyThymidine monophosphate, T)、 鸟嘌呤脱氧核苷单磷酸 (deoxyGuanosine monophosphate, G)、 胞嘧啶脱氧核苷单磷酸 (deoxyCytidine monophosphate, C)。
序列分析的困难
技术欠缺 DNA非编码区比编码区多 编码区不连续:内含子、外显子 mRNA非编码区、tRNA、SnRNA 从DNA序列推导蛋白质序列 从蛋白质序列推导结构和功能 二级结构: alpha helix、beta sheet 超级二级结构、三级结构、四级结构 为什么结构命名如此复杂? 结构决定功能、实验方法欠缺 蛋白质三级结构推导的基础 目前不能从结构推导功能
打分矩阵(Scoring Matrix)
对氨基酸对相似性的尺度衡量,例如苯丙氨酸(Phe)和 异亮氨酸(Ile)相似性的定量标准,可以以多种方式 来定义。因此,设计一个打分矩阵,首先必须确定 用什么算法模型。在序列排比分析中,打分矩阵只 是某个算法模型的量化表现,排比的结果只在该算 法模型所划定的范围内有意义。
序列比较的生物学基础
RNA则是由A、U、G、C,4种核苷酸形成的相似 线性多聚体,这4种核苷酸是:
腺嘌呤核苷单磷酸(Adenosine monophosphate, A)、 尿嘧啶核苷单磷酸(Uridine monophosphate, U)、 鸟嘌呤核苷单磷酸(Guanosine monophosphate, G) 胞嘧啶核苷单磷酸(Cytidine monophosphate, C)。
序列比较是如何进行的?
要对两个序列进行对比,必须首先打出其相似性的 定量分值,于是需要一个打分矩阵。 打分矩阵(Scoring Matrix): 给不同的氨基酸对定义的一系列相似性分值。对氨 基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮 氨酸相似性的定量标准,可以以多种方式来定义。
序列比较是如何进行的?
序列相似性的概念
序列排对比具有上述强大功能的原因是, 人们发现,假如两个生物大分子的序列足够 相似,几乎毫无疑问(当然不是绝对)它们具有 相似的生物学功能,并且可能是同源的。
序列相似性的概念
在序列中编码功能的句法和语义中具有两个重 要的特征: 功能被编码于序列之中,即序列提供了句法。 编码具有一定的冗余度(redundancy),即序列中一 些位点的改变可以保持功能不变,这就使编码具有 强劲的语义。