序列比对与数据库搜索汇总

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
局部相似性比对往往比整体比对具有更高的灵敏度, 其结果更具生物学意义。
1.4 序列比对的经典算法
计算两条序列间的最适比对的经典算法: ➢算法:做任何事情都有一定的步骤。为解决一个问题而采取的
方法和步骤,就称为算法。
➢Needleman-Wunsch算法:整体比对算法,最佳比对
(两条蛋白质序列具有最多匹配残基)中包括了全部的最短匹配 序列。
第二条序列头尾颠倒
ACCGACAATATGCATA ACTGACAATATGGATA
扩展的编辑操作
1.5.2 通过点矩阵进行序列比较 -“矩阵作图法” 或 “对角线作图”
1.5.3 滑动窗口技术
➢问题?
两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。
➢解决方案
使用滑动窗口代替一次一个位点的比较是解决 这个问题的有效方法。假设窗口大小为10,相似度 阈值为8,则每次比较取10个连续的字符,如相同的 字符超过8个,则标记。
第四章 序列比较与数据库搜索
主讲:张宏 西北农林科技大学农学院遗传教研组
第一节 序 列 比 对
❖ 序列比较的根本任务是:
寻找序列之间的相似性 辨别序列之间的差异 是进行序列相似性与同源性分析的一种研究方法
❖ 目的:
相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系
AGCACACA ACACACTA
s: AGCACACA t: ACACACTA score (s,t)= 5
❖ 序列比对的目的是寻找一个得分最大(或代价最小)的比对。
设有两个序列: GACGGATTAG, GATCGGAATAG
Alignment1: GACGGATTAG GATCGGAATAG
Alignment2: GA-CGGATTAG GATCGGAATAG
序列比较可以分为四种基本情况:
(1)两条长度相近的序列相似 找出序列的差别
(2)判断一条序列的前缀与另一条序列的后缀相似 (3)判断一条序列是否是另一条序列的子序列 (4)判断两条序列中是否有非常相似的子序列
1.2 序列比对的基本思想 序列比对的基本思想,是找出检测序列和目标序列的
相似性。比对过程中需要在检测序列或目标序列中引入空 位(一般用”-”来表示),以表示插入或删除(图2)来比较 两个(双序列比对)或多个序列(多序列比对),使得这 些序列获得最大匹配。
图2 序列比对,图中“-”表示插入和删除, 用字符表示相同的残基,“+”表示相似残基
序列比对的最终实现,必须依赖于某个数学模 型。不同的模型,可以从不同角度反映序列的特性, 如结构、功能、进化关系等。很难断定,一个模型 一定比另一个模型好,也不能说某个比对结果一定 正确或一定错误,而只能说它们从某个角度反映了 序列的生物学特性。此外,模型参数的不同,也可 能导致比对结果的不同。
1.3 序列比对的数学模型
1. 序列的相似性与同源性
同源(homology)- 具有共同的祖先, 趋异进化。
❖ 直系(向)同源(Orthologous ) 基因功能相同,出现在不同物种 ❖ 旁系(共生)同源(paralogous ) 在同一基因组,功能不同
相似(similarity)
— 同源序列一般是相似的 — 相似序列不一定是同源的 — 进化趋同(同功能)
序列比对的数学模型大体可以分为两类: ➢ 整体比对(global alignment): 序列的整体 ➢ 局部比对(Local alignment): 序列部分区域
局部相似性比对的生物学基础: 蛋白质功能位点往往 是由较短的序列片段组成的,这些部位的序列具有相 当大的保守性,尽管在序列的其它部位可能有插入、 删除或突变。
相似性是指序列比对过程中用来描述检测序列和目标 序列之间相同DNA碱基或氨基酸残基顺序所占比例的高 低。相似性本身的含义,并不要求与进化起源是否同一,与亲缘关
系的远近、甚至于结构与功能有什么联系。
当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时, 就难以确定或者根本无法确定其是否具有同源性。
总之,不能把相似性和同源性混为一谈。所谓“具有 50%同源性”,或“这些序列高度同源”等说法,都是 不确切的,应该避免使用。
1.1 序列的相似性描述
➢定性的描述 ➢定量的数值
❖相似度 ❖距离
序列比较的基本操作是比对(AligΒιβλιοθήκη Baidument)
两个序列的比对是寻找这两个序列中各个字符的一种一一对应 关系,或字符的对比排列 。分析序列同源性和相似性的过程。
相似性和同源性
数据库搜索的基础是序列的相似性比对,而寻 找同源序列则是数据库搜索的主要目的之一。
所谓同源序列,简单地说,是指从某一共同祖先 经趋异进化而形成的不同序列。同源性可以用来 描述染色体—“同源染色体”、基因—“同源基因” 和基因组的一个片断—“同源片断”
必须指出,相似性(similarity)和同源性 (homology)是两个完全不同的概念。
GCATGACGAATCAG
TATGACAAACAGC
GCATGACGAATCAG
TATGAC-AAACAGC
说明两条序列的相似程度 ——〉定量计算
❖ 两条序列的相似程度的定量计算 相似度:其值越大,序列越相似 距离:距离越大,序列的相似度就越小
ACCGACAATATGCATA
ATAGGTATAACAGTCA
➢Smith-Wateman算法:在Needleman-Wunsch算法基础
上发展而来的一种局部比对算法。 这二种算法均可以用于核酸和蛋白质序列。在给定空位罚值和
替换矩阵情况下,它们总是能给出具有最高联配值的联配。但是, 这个联配并不需要达到生物学意义上的显著水平。
1.5 序列比对的实施方法
1.5.1 距离的编辑与计算
基于滑动窗口的点矩阵方法可以明显地降低点 阵图的噪声,并且明确无误的指示出了两条序列间 具有显著相似性的区域。
1.5.4 序列两两比对
❖ 序列两两比对(Pairwise Sequence Alignment)
按字符位置重组两个序列,使得两个序列达到一样的长度。
❖ 例如: s: t: cost=2
相关文档
最新文档