第三章(1)序列分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

具有连续相似区域的两条DNA序列的简单点阵图 序列的简单点阵图 具有连续相似区域的两条
4、 序列的两两比对 、
序列的两两比对 (Pairwise Sequence Alignment) ) 按字符位置重组两个序列, 按字符位置重组两个序列,使得两个序 列达到一样的长度
Alignment -1
s: t:
例如: 例如: s: AGCACAC−A − t: A−CACACTA − cost=2 s: AGCACAC−A − t: A−CACACTA − score (s,t)= 5 , ) 序列比对的目的是寻找一个得分最大( 序列比对的目的是寻找一个得分最大(或代价 最小)的比对。 最小)的比对。
5、打分矩阵(Weight Matrices) 、打分矩阵( )
第二条序列头尾颠倒
CTAGTCGAGGCAATCT GAACAGCTTCGTTAGT

反向互补序列
RNA发夹式二级结构 发夹式二级结构
3、通过点矩阵进行序列比较 、
对角线作图” “矩阵作图法” 或 “对角线作图” 矩阵作图法”
→ 序列 序列1

→ 序 列 2→ 2→
→ 序列 序列1

→ 序 列 1→ 1→
序列比较可以分为四种基本情况: 序列比较可以分为四种基本情况:
(1)两条长度相近的序列相似 ) →找出序列的差别 (2)判断一条序列的前缀与另一条序列的后缀相似 ) (3)判断一条序列是否是另一条序列的子序列 ) (4)判断两条序列中是否有非常相似的子序列 )
2、编辑距离(Edit Distance) 、编辑距离(
概念: 概念: 两条序列s 的比对的得分(或代价) 两条序列 和 t 的比对的得分(或代价) 等于将s 转化为t 等于将 转化为 所用的所有编辑操作的 得分(或代价)总和; 得分(或代价)总和; s 和t 的最优比对是所有可能的比对中得 分最高(或代价最小)的一个比对; 分最高(或代价最小)的一个比对; s 和t 的真实距离应该是在得分函数 值 的真实距离应该是在得分函数p值 或代价函数w值 最优时的距离。 (或代价函数 值)最优时的距离。
-4 5 -4 -4 -4 -4
-5 -5 1
(2)蛋白质打分矩阵
(i)等价矩阵 等价矩阵
1 i = j Rij = 0 i ≠ j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
(ii) 氨基酸突变代价矩阵 氨基酸突变代价矩阵GCM (iii)疏水矩阵 ) (iv)PAM矩阵(Point Accepted Mutation) 矩阵( 矩阵 ) (v) BLOSUM矩阵 矩阵 (Blocks Amino Acid Substitution Matrices)
GCATGACGAATCAG TATGACAAACAGC
GCATGACGAATCAG TATGAC-AAACAGC
说明两条序列的相似程度 ——〉定量计算 〉
两条序列的相似程度的定量计算 • 相似度 相似度,它是两个序列的函数,其值越大,表示 两个序列越相似 • 两个序列之间的距离 距离。距离越大,则两个序列的 距离 相似度就越小
Alignment1:
GACGGATTAG GATCGGAATAG
Alignment2:
GA CGGATTAG GATCGGAATAG
1、字母表和序列 、
字母表
• 4字符DNA字母表:{A, C, G, T} • 扩展的遗传学字母表或IUPAC编码 • 单字母氨基酸编码
符号 G A T C R Y M K S W H B V D N
Alignment -2
AGCACAC−A AG−CACACA A−CACACTA ACACACT−A —————————————————————————— Match(A, A) Match(A, A) Delete(G, - ) Replace(G, C) Match(C, C) Insert( -, A) Match(A, A) Match(C, C) Match(C, C) Match(A, A) Match(A, A) Match(C, C) Match(C, C) Replace(A, T) Insert( -, T) Delete(C, -) Match(A, A) Match(A, A) 图3.6 序列AGCACACA和ACACACTA的两种比对结果
针对不同的进化距离采用PAM 矩阵 针对不同的进化距离采用
序列相似度 = 40% | 打分矩阵 = PAM120
滑动窗口技术
两条序列中有很多匹配的字符对, 两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。 会形成很多点标记。
滑动窗口技术
• 使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。 个问题的有效方法。 • 假设窗口大小为10,相似度阈值为8,则每次比 假设窗口大小为 ,相似度阈值为 , 较取10个连续的字符 如相同的字符超过8个 个连续的字符, 较取 个连续的字符,如相同的字符超过 个,则 标记 • 基于滑动窗口的点矩阵方法可以明显地降低点阵 图的噪声, 图的噪声,并且明确无误的指示出了两条序列间具 有显著相似性的区域。 有显著相似性的区域。
j-1:s:j —表示s
中的第j 个字符,简记为sj
子序列与子串
子序列: 子序列:选取s中的某些字符(或删除s中的某些
字符)而形成s的子序列 例如: TTT 是 ATATAT的子序列。
s的子串: 的子串
是由s中相继的字符所组成。 例如: TAC是AGTACA的子串, 但不是TTGAC的子串(是子序列)。
不同编辑操作的代价不同
为编辑操作定义函数w,它表示“代价 (cost)”或“权重(weight)”。 对字母表Α中的任意字符a、b,定义 Α a b w (a, a) = 0 w (a, b) = 1 a≠b w (a, -) = w ( -, b) = 1
也可以使用得分(score)函数 来评价编辑操作 p (a, a) = 1 p (a, b) = 0 a ≠ b p (a, -) = w ( -, b) = -1
东南大学 吴健雄实验室
第三章 序 列 比 较
序列比较的根本任务是: 序列比较的根本任务是:
• 发现序列之间的相似性 • 辨别序列之间的差异
目的: 目的:
相似的结构 结构, 相似序列 → 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系
第一节 序列的相似性
• 同源(homology)- 具有共同的祖先 同源( )
直向同源( 直向同源(Orthologous ) 共生同源( 共生同源(paralogous )
• 相似(similarity) 相似( )
—同源序列一般是相似的
— 相似序列不一定是同源的 — 进化趋同(同功能) 进化趋同(es I, a1 in species II) 共生同源(a1 and a2 in species I)
扩展的遗传学字母表或IUPAC编码
1、字母表和序列 、
特定的符号
— 代表字母表 • A* — 代表由字母表A中字符所形成的一系列有限 长度序列或字符串或序列的集合 • a、b、c—代表单独的字符 • s、t、u、v—代表A*中的序列 • |s|—代表序列s的长度
•Α
为了说明序列s子序列和s中单个字符,在s中 各字符之间用数字标明分割边界
(1)核酸打分矩阵设DNA序列所用的字母表为 Α = { A,C,G,T }
a. 等价矩阵 b. BLAST矩阵 c. 转移矩阵(transition,transversion) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
表3.1 等价矩阵表 A A T C G 1 0 0 0 T 0 1 0 0 C 0 0 1 0 G 0 0 0 1 A T C G 表3.2 BLAST矩阵 A 5 T -4 C -4 -4 5 -4 G -4 -4 -4 5 A T C G 表3.3 转移矩阵 A 1 -5 -5 -1 T 1 C G -5 -5 -1 -1 -5 -5 -1 1
• 这类矩阵式基于进化原理的 证据: 证据: 编码相同蛋白质的基因随着进化发生分歧,相似度降低。 编码相同蛋白质的基因随着进化发生分歧,相似度降低。 • 科学
• 用得多
矩阵集合----- PAM-N 矩阵集合 矩阵用于比较相距120个PAM单位的序列。 单位的序列。 如,PAM120矩阵用于比较相距 矩阵用于比较相距 个 单位的序列 一个PAM-N矩阵元素(i,j)的值: 矩阵元素( , )的值: 一个 矩阵元素 反应两个相距N个 单位的序列中第i种氨基酸 反应两个相距 个PAM单位的序列中第 种氨基酸 单位的序列中第 替换第 种氨基酸的频率 种氨基酸的频率。 替换第j种氨基酸的频率。
gacggattaggatcggaatag单字母氨基酸编码符号含义stronginteractionweakinteractionany扩展的遗传学字母表或iupac编码代表由字母表a中字符所形成的一系列有限长度序列或字符串或序列的集合为了说明序列s子序列和s中单个字符在s中各字符之间用数字标明分割边界例如设saccacgta则s可表示为指明第i位或第j位之间的子序列当然0称为后缀即suffixssi1选取s中的某些字符或删除s中的某些字符而形成s的子序列例如
例如,设s=ACCACGTA,则s可表示为 0A1C2C3A4C5G6T7A8
i:s:j 指明第i位或第j位之间的子序列,
当然,0 ≤ i ≤ j ≤ |s|。 • 子序列0:s: i 称为前缀,即prefix(s,i) • 子序列 i:s:|s|称为后缀,即suffix(s, |s|-i+1)
• i:s: i — 为空序列 •
基因复制
进化趋同
水平转移
序列的相似性描述
• 定性的描述 • 定量的数值
相似度 距离
序列比较的基本操作是比对( 序列比较的基本操作是比对(Alignment) )
• 两个序列的比对是指这两个序列中各个字符的一种 一一对应关系, 一一对应关系,或字符的对比排列 。 设有两个序列: GACGGATTAG,GATCGGAATAG
含义 G A T C G or A T or C A or C G or T G or C A or T A or C or T G or T or C G or C or A G or A or T G or A or T or C
说 明 Guanine Adenine Thymine Cytosine Purine Pyrimidine Amino Keto Strong interaction (3 H bonds) Weak interaction (2 H bonds) Not-G not-A not-T(not-U) not-C Any
(a)
(b)
(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋白基因 )对人类( )与黑猩猩( ) 球蛋白基因 序列进行比较的完整点阵图。( 。(b) 序列进行比较的完整点阵图。( )利用滑动窗口对以上的两种球蛋白基因序列进 行比较的点阵图,其中窗口大小为10个核苷酸 相似度阈值为8。 个核苷酸, 行比较的点阵图,其中窗口大小为 个核苷酸,相似度阈值为 。
PAM矩阵(Point Accepted Mutation) 矩阵( ) 矩阵
• 基于进化的点突变模型
• 一个 一个PAM就是一个进化的变异单位 即1%的氨基酸改变 就是一个进化的变异单位, 就是一个进化的变异单位 的氨基酸改变
• 这类矩阵里列出同源蛋白质在进化过程中氨基酸变化的可能性。 这类矩阵里列出同源蛋白质在进化过程中氨基酸变化的可能性。
子串是子序列 • 子序列不一定是子串

字符串操作
字符串连接操作: 两个序列s和t的连接: s + + t 例如: ACC++CTA = ACCCTA 字符串k操作— 删除字符串两端的字符 其定义如下:
• • • prefix(s,l) = sk|s|-l suffix(s,l) = k|s|-ls i-1 |s|-j i:s:j = k sk
直接距离计算的不足 字符编辑操作(Edit Operation) 字符编辑操作可将一个序列转化 为一个新序列
• • • • Match(a,a) Delete(a,-) Replace(a,b) Insert(-,b)
扩展的编辑操作
ACCGACAATATGCATA ATAGGTATAACAGTCA ACCGACAATATGCATA ACTGACAATATGGATA
相关文档
最新文档