第三章 序列相似性比较
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
序列比对的衡量标准
两个序列进行比对,会有产生许多不同的对齐形式, 需要一定的标准对比对结果进行比较评估,以找出 最佳的对齐结果。 通常采用计分矩阵(scoring matrix)来计算比对分 值,以得到一个评价优劣的标准。
计分矩阵
A
A T 1 -1
T
-1 1
C
-1 -1
G
-1 -1
C
G
-1
-1
-1
-1 -5
-5
C 0
C -4 -4 5 BLAST矩阵
C -5 -1 1 转移矩阵
G 0 0 0 等价矩阵
G -4 -4 -4 5
G -1 -5 -5 1
嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T
核酸计分矩阵
s= ACACACCA Alignment-1 s= ACACACC-A |||||| | t= ACACACTGA
在序列比较时必须考虑插入/缺失突变的存在,采用插入空位 (gap) 增加匹配残基的数量。
序列比对问题
序列比对时仅仅为了得到多一些匹配残基数就加入许多 的gap,这样做是否值得?这个对齐是否还有生物学意 义?
ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | || | | | | CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT
等价矩阵 BLAST矩阵 转移矩阵 7 31 6
t= ACACACTGA Alignment-2 s= ACACAC-CA |||||| | t= ACACACTGA
7 31 2
氨基酸计分矩阵
氨基酸计分矩阵 —— 等价矩阵 —— 遗传密码矩阵 —— 疏水矩阵 —— PAM矩阵 —— BLOSUM矩阵
比对-4
----AT--GCAT--GCATGCATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC | | | | | | | | | | | | | | | | | | | | || | | | | || | | | | | | | | | || | | | | | CGATCG--ATCG--AT--C----G--ATATATATATATGCATATATATGCATGCATGCATGCAT----
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
氨基酸等价矩阵
A 1 C D 0 0 1 0 1 E 0 0 0 1 F 0 0 0 0 1 G H 0 0 0 0 0 0 0 0 0 0 1 0 1 I 0 0 0 0 0 0 0 1 K L 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 M N 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 P Q 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 R 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 S 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 T 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 V W Y 0 0 0 A=Ala 0 0 0 C=Cys 0 0 0 D=Asp 0 0 0 E=Glu 0 0 0 F=Phe 0 0 0 G=Gly 0 0 0 H=His 0 0 0 I=Ile 0 0 0 K=Lys 0 0 0 L=Leu 0 0 0 M=Met 0 0 0 N=Asn 0 0 0 P=Pro 0 0 0 Q=Gln 0 0 0 R=Arg 0 0 0 S=Ser 0 0 0 T=Thr 1 0 0 V=Val 1 0 W=Trp 1 Y=Tyr
-1
1
-1
-1
1
匹配得1分, 错配罚1分, 空位罚2分
序列比对的衡量标准
比对-1 匹配16×1+ 错配36×(-1) +空位0×(-2)=-20
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
比对-2
匹配38×1+ 错配12×(-1) +空位0×(-2)=28
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | |
大量观察研究表明,插入/缺失突变的发生机率远小于 点突变。
序列比对问题
比对-1
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
比对-3
匹配40×1+ 错配8×(-1) +空位4×(-2)=24
ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | || | | | | CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT
比对-4
匹配44×1+ 错配0×(-1) +空位12×(-2)=20
AT--GCAT--GCATGCATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC | | | | | | | | | | | | | | | | | | | | || | | | | || | | | | | | | | | || | | | | | CGATCG--ATCG--AT--C----G--ATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | || | | | | CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT
AT--GCAT--GCATGCATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC | | | | | | | | | | | | | | | | | | | | || | | | | || | | | | | | | | | || | | | | | CGATCG--ATCG--AT--C----G--ATATATATATATGCATATATATGCATGCATGCATGCAT
SeqA:
ACATGCTTACGTAGGTCGTAAATGCCGTTCGCTGCTAATG |||||| || |||| |||| ||| |||| |||| |||||
SeqB:
ACATGCAAACCTAGGACGTACATGTCGTTGGCTGATAATG
同源性(homology)
指从一些数据中推断出的两个基因或蛋白质序列具 而共同祖先的结论,属于质的判断。A和B的关系 上,只有同源和非同源两种关系。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC
| | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
序列比对问题
是否还有更好的对齐方式?
为什么要序列比对?
序列比较的根本任务:
–发现序列之间的相似性
序列1 序列2
相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系
相似性(similarity)
一种很直接的数量关系,比如部分相同或相似的 百分比或其它一些合适的度量。比如说,A序列 和B序列的相似性是80%,这是个量化的关系。
比对-3
?源自文库
ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | || | | | | CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT
第三章 序列相似性比较
农业与生物学院 张利达 zhangld@sjtu.edu.cn
主要内容:
• 序列比对相关概念
• 序列比对衡量标准 • 双序列比对算法
——Needleman-Wunsch算法 ——Smith-Waterman 算法
• BLAST
序列比对相关概念
两条DNA序列比对分析
两条蛋白质序列比对分析
核酸计分矩阵
核酸计分矩阵
—— 等价矩阵 —— BLAST矩阵 —— 转移矩阵(transition,transversion)
A T A 1 0 C G 0 0 A T A 5 C G A T A 1 C G -4 -4 -4 -5 -5 -1
T
0
1
0
0
1
0
0 1
T
-4 5
-4 -4
-4
T
-5 1
序列比对问题
基因在进化中存在插入/缺失突变,序列比对时应该 将这些考虑这些突变,以便获得到更好的对齐结果。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
比对-2
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
血红蛋白基因
相似与同源两者区别
• 同源序列一般相似,序列间的相似性越高,它们 是同源序列的可能性就更高,所以经常可以通过 序列的相似性来推测序列是否同源。 • 相似序列不一定同源(趋同进化)
序列比对衡量标准
序列比对问题
两个序列比较
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT