第四章序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
依据,配对得1分,不匹配不得分,插入1个gap扣1分。
例如:
s: AGCACACA t: ACACACTA cost=2
s: AGCACACA t: ACACACTA score (s,t)= 5
序列比对的目的是寻找一个得分最大(或代价 最小)的比对。
s: t:
AGCACACA ACACACTA (A)
57
Blastn---2
58
Blastn---2
有什么作用?
对于新基因,可以了解基因的结构特征, 5-UTR和3-UTR 的大小. 59
Blastp
60
Blastp
61
Blastp
62
BlasHale Waihona Puke Baidup
63
Blastp
64
Blastp
65
Blastp
Blastp的作用: ①对于已知的蛋白,可以分析其相似蛋白; ②对于未知的蛋白片段,可以分析其属于什么蛋白。
http://blast.ncbi.nlm.nih.gov/Blast.cgi
40
BLAST检索中采用的数据库类别:
蛋白数据库:
nr: 无冗余数据库,汇集了GenBank中所有 的蛋白序列+PDB+Swissprot+PIR等汇集;
41
BLAST检索中采用的数据库类别:
核酸数据库: nr/nt: 无冗余数据库,汇集了 GenBank+DDBJ+EMBL中所有的核甘酸序列 (不包括EST)
序列比较的基本操作是比对(Alignment)
两个序列的比对是指这两个序列中各个字符的一种
一一对应关系,或字符的对比排列 。
设有两个序列: GACGGATTAG,GATCGGAATAG
Alignment1:
GACGGATTAG GATCGGAATAG
Alignment2:
GA CGGATTAG GATCGGAATAG
50
Blastn---1
51
Blastn---1
52
Blastn---1
53
Blastn---1
Blastn1的作用: ①对于已知的基因,可以分析其相似基因; ②对于未知的基因片段,可以分析其属于什么基因。54
Blastn---1
55
Blastn---1
56
Blastn---2
What is EST?
生物信息学 Bioinformatics
编号 第一章 第二章 第三章
名称 生物信息学引论 生物信息学的生物学基础 生物信息学数据库资源
第四章
第五章 第六章
DNA和蛋白质序列分析
系统发生分析 基因表达数据分析
第七章
第八章 第九章
其他常用生物信息学工具
电子克隆的原理和应用 基本生物信息学工具的开发与应用
2
第四章 DNA与蛋白质序列分析
什么是序列分析? 拿到一个基因/蛋白质序列,
我能做什么?
序列分析的内容
-----为了功能的分析
在数据库中进行序列相似性搜索 基因结构分析/启动子序列分析 Motif的寻找与序列的模式识别(含亚细胞定位, 跨膜区的预测等)
第1节
序列比对
序列的相似性
相似性(similarity)
→ 序列1
→
自我比较
→ 序 列 1→
滑动窗口技术
两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。
滑动窗口技术
• 使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。 • 假设窗口大小为10,相似度阈值为8,则每次比 较取10个连续的字符,如相同的字符超过8个,则 标记 • 基于滑动窗口的点矩阵方法可以明显地降低点阵 图的噪声,并且明确无误的指示出了两条序列间具 有显著相似性的区域。
所以, 相似性的数值一定比一致性的要( 大 or 相等 or 小 )
生物序列的同源性
同源性(homology):
指从一些数据中推断出的两个基因或蛋白质序 列具有共同祖先的结论,属于质的判断。就是 说A和B的关系上,只有是同源序列,或者非同 源序列两种关系。而说A和B的同源性为80%都
是不科学的。
74
Blastx
当Blastx没有结果时,可以考虑使用。
75
Question:
1. 我刚刚分离一个水稻基因片段序列,大概250bp, 我想初步分析一下它是什么基因,编码什么产物以 及是否已经被别人克隆,应该采用什么工具和数据 库? A. Blastn E. blastx B.Blastp F. nr C.tblastn, D.tblastx,
Alignment -1
s: t:
Alignment -2
AGCACACA AGCACACA ACACACTA ACACACTA —————————————————————————— Match(A, A) Match(A, A) Delete(G, - ) Replace(G, C) Match(C, C) Insert( -, A) Match(A, A) Match(C, C) Match(C, C) Match(A, A) Match(A, A) Match(C, C) Match(C, C) Replace(A, T) Insert( -, T) Delete(C, -) Match(A, A) Match(A, A) 图3.6 序列AGCACACA和ACACACTA的两种比对结果
相似性和同源性关系
一般来说,序列间的相似性越高的话,它 们是同源序列的可能性就更高。
注意不要等价混用这两个名词。
A序列和B序列的同源性为80%,记住这种 说法是错误的!!
序列相似性比较和序列同源性分析
所以,我们说, 序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该 序列的生物属性,也就是找出与此序列相似的已知序列是什么。完 成这一工作只需要使用两两序列比较算法。常用的程序包有 BLAST等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中进 行多序列同时比较,以确定该序列与其它序列间是否存在同源关系。 完成这一工作必须使用多序列比较算法。常用的程序包有 CLUSTAL等;
问题描述: 给定两个序列P, Q,当一个序列R既是P由是Q的子序列时,为P 和Q的公共子序列。 如P=“ABCBDAB”, Q=“BDCABA”则BCA为P与Q的一个公共子 序列,但是BCBA也是公共子序列,而且是最长公共子序列。 因此,关键是寻找最长公共子序列。 AB- C- BDAB BDCAB- A * * * *
(B)
1.这两个序列的cost和score值分别为多少? 2.在序列比对运算时最终结果是哪种运算方 式?
Question: 给定一个DNA打分矩阵:
A A T C G 1
T
C
G
-1 -1 -1 -1 -1 -1
-1 1
-1 -1 1
-1 -1 -1 1
假设空位罚分为2, 按照以上的打分矩阵, 对于下列对齐方案的记分值为多少? GCGACTCG TAGAGACG *** ** CTTGACT- AGA CT- - ACTGTGA ** *** **
ACCGACAATATGCATA ACTGACAATATGGATA
第二条序列头尾颠倒
CTAGTCGAGGCAATCT GAACAGCTTCGTTAGT
?
进行序列比较的方法1
通过点矩阵进行序列比较
“矩阵作图法” 或 “对角线作图”
→ 序列1
→
实例
→ 序 列 2→
Question:
序列比较的方法有哪些?
第2节 Blast的应用
36
Blast简介
BLAST 是基于序列相似性的数据库搜索程序。
BLAST是“局部相似性基本查询工具”
(Basic Local Alignment Search Tool)的缩写。
37
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分求和 的结果,一般来说,匹配片段越长、 相似性越高 则Score值越大。 E value: 氨基酸残基(或碱基)随机排列得到上述 Score值的概率的大小。E值越小表示越匹配。 E=0表示完全配对,不存在随机配对。
42
BLAST的应用
具体步骤
1.登陆blast主页
http://www.ncbi.nlm.nih.gov/BLAST/ 2.根据数据类型,选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果
44
45
46
47
48
49
提高期望阈值(Expect threshold); 降低延伸种子序列的长度(word size) 主要用途:搜索短的基序,如验证 PCR引物的特异性
编辑距离(Edit Distance)
GCATGACGAATCAG TATGACAAACAGC
GCATGACGAATCAG TATGAC-AAACAGC
说明两条序列的相似程度 ——〉定量计算
两条序列的相似程度的定量计算 相似度,它是两个序列的函数,其值越大,表示 两个序列越相似 两个序列之间的距离。距离越大,则两个序列的 相似度就越小
(a)
(b)
(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋白基因 序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进 行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。
进行序列比较的方法2
最长公共子序列问题(Longest common subsequence, LCS)
字符编辑操作(Edit Operation) 字符编辑操作可将一个序列转化 为一个新序列
Match(a,a) Delete(a,-) Replace(a,b) Insert(-,b)
扩展的编辑操作
ACCGACAATATGCATA ATAGGTATAACAGTCA
66
Blastx
67
Blastx
68
Blastx
69
Blastx
Blastx: 分析你的基因编码什么产物? 分析你的基因是否是新基因?
70
Blastx
71
tBlastn
72
tBlastn
73
tBlastn
tBLASTn的作用: 1. 已知一种蛋白序列,在另一物种中进行其同源蛋白 基因的电子克隆(in silico cloning); 2. 寻找一个新的蛋白质序列(如双向电泳得到的)是否 已有核酸序列,是否可以克隆。
AGCACACA ACACACTA (B)
对于(A), score=7-2=5 对于(B), score=5-2=3 序列比对的目的是寻找一个得分最大(或代价 最小)的比对。
Question
s: CAAGCACAGGCA t: CAACACTAGGCA
(A)
CAA GCACAGGCA C AA CACTAGGCA
一致性(identity):
两个蛋白质有一定数量的氨基酸在排比的位点上是相 同的,即如果38个氨基酸的蛋白质中15个位点相同, 我们说它们一致性为39.4%.
MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND
那么,哪个更可靠?
不同编辑操作的代价不同
为编辑操作定义函数w,它表示“代价 (cost)”或“权重(weight)”。
对字母表中的任意字符a、b,定义 w (a, a) = 0 w (a, b) = 1 ab w (a, -) = w ( -, b) = 1
依据,配对得0分,不匹配扣1分。
也可以使用得分(score)函数来评 价编辑操作 p (a, a) = 1 p (a, b) = 0 a b p (a, -) = p ( -, b) = -1 空位罚分。
38
主要的blast程序
程序名 查询序列 数据库 Blastn Blastp 核酸 蛋白质 核酸 搜索方法 核酸序列搜索逐一核酸数据库中 的序列
蛋白质 蛋白质序列搜索逐一蛋白质数据 库中的序列
Blastx
核酸
Tblastn
蛋白质
TBlastx
核酸
蛋白质 核酸序列翻译成蛋白质序列后和 蛋白质数据库中的序列逐一搜 索。 核酸 蛋白质序列和核酸数据库中的核 酸序列翻译后的蛋白质序列逐 一比对。 核酸 核酸序列翻译成蛋白质序列,再 和核酸数据库中的核酸序列翻 译成的蛋白质序列逐一进行比 对。 39
是指一种很直接的数量关系。比如说,A序 列和B序列的相似性是80%,或者4/5。这是 个量化的关系。
序列的相似性
相似性(similarity)
通常在某些位点上有一些氨基酸被另外一些 化学物理特性相近的氨基酸所代替,这种突 变可称为保守突变。 将保守突变的因素考虑在内,就可以对两序 列的相似程度打分,所得分值即代表其相似 的程度。
例如:
s: AGCACACA t: ACACACTA cost=2
s: AGCACACA t: ACACACTA score (s,t)= 5
序列比对的目的是寻找一个得分最大(或代价 最小)的比对。
s: t:
AGCACACA ACACACTA (A)
57
Blastn---2
58
Blastn---2
有什么作用?
对于新基因,可以了解基因的结构特征, 5-UTR和3-UTR 的大小. 59
Blastp
60
Blastp
61
Blastp
62
BlasHale Waihona Puke Baidup
63
Blastp
64
Blastp
65
Blastp
Blastp的作用: ①对于已知的蛋白,可以分析其相似蛋白; ②对于未知的蛋白片段,可以分析其属于什么蛋白。
http://blast.ncbi.nlm.nih.gov/Blast.cgi
40
BLAST检索中采用的数据库类别:
蛋白数据库:
nr: 无冗余数据库,汇集了GenBank中所有 的蛋白序列+PDB+Swissprot+PIR等汇集;
41
BLAST检索中采用的数据库类别:
核酸数据库: nr/nt: 无冗余数据库,汇集了 GenBank+DDBJ+EMBL中所有的核甘酸序列 (不包括EST)
序列比较的基本操作是比对(Alignment)
两个序列的比对是指这两个序列中各个字符的一种
一一对应关系,或字符的对比排列 。
设有两个序列: GACGGATTAG,GATCGGAATAG
Alignment1:
GACGGATTAG GATCGGAATAG
Alignment2:
GA CGGATTAG GATCGGAATAG
50
Blastn---1
51
Blastn---1
52
Blastn---1
53
Blastn---1
Blastn1的作用: ①对于已知的基因,可以分析其相似基因; ②对于未知的基因片段,可以分析其属于什么基因。54
Blastn---1
55
Blastn---1
56
Blastn---2
What is EST?
生物信息学 Bioinformatics
编号 第一章 第二章 第三章
名称 生物信息学引论 生物信息学的生物学基础 生物信息学数据库资源
第四章
第五章 第六章
DNA和蛋白质序列分析
系统发生分析 基因表达数据分析
第七章
第八章 第九章
其他常用生物信息学工具
电子克隆的原理和应用 基本生物信息学工具的开发与应用
2
第四章 DNA与蛋白质序列分析
什么是序列分析? 拿到一个基因/蛋白质序列,
我能做什么?
序列分析的内容
-----为了功能的分析
在数据库中进行序列相似性搜索 基因结构分析/启动子序列分析 Motif的寻找与序列的模式识别(含亚细胞定位, 跨膜区的预测等)
第1节
序列比对
序列的相似性
相似性(similarity)
→ 序列1
→
自我比较
→ 序 列 1→
滑动窗口技术
两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。
滑动窗口技术
• 使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。 • 假设窗口大小为10,相似度阈值为8,则每次比 较取10个连续的字符,如相同的字符超过8个,则 标记 • 基于滑动窗口的点矩阵方法可以明显地降低点阵 图的噪声,并且明确无误的指示出了两条序列间具 有显著相似性的区域。
所以, 相似性的数值一定比一致性的要( 大 or 相等 or 小 )
生物序列的同源性
同源性(homology):
指从一些数据中推断出的两个基因或蛋白质序 列具有共同祖先的结论,属于质的判断。就是 说A和B的关系上,只有是同源序列,或者非同 源序列两种关系。而说A和B的同源性为80%都
是不科学的。
74
Blastx
当Blastx没有结果时,可以考虑使用。
75
Question:
1. 我刚刚分离一个水稻基因片段序列,大概250bp, 我想初步分析一下它是什么基因,编码什么产物以 及是否已经被别人克隆,应该采用什么工具和数据 库? A. Blastn E. blastx B.Blastp F. nr C.tblastn, D.tblastx,
Alignment -1
s: t:
Alignment -2
AGCACACA AGCACACA ACACACTA ACACACTA —————————————————————————— Match(A, A) Match(A, A) Delete(G, - ) Replace(G, C) Match(C, C) Insert( -, A) Match(A, A) Match(C, C) Match(C, C) Match(A, A) Match(A, A) Match(C, C) Match(C, C) Replace(A, T) Insert( -, T) Delete(C, -) Match(A, A) Match(A, A) 图3.6 序列AGCACACA和ACACACTA的两种比对结果
相似性和同源性关系
一般来说,序列间的相似性越高的话,它 们是同源序列的可能性就更高。
注意不要等价混用这两个名词。
A序列和B序列的同源性为80%,记住这种 说法是错误的!!
序列相似性比较和序列同源性分析
所以,我们说, 序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该 序列的生物属性,也就是找出与此序列相似的已知序列是什么。完 成这一工作只需要使用两两序列比较算法。常用的程序包有 BLAST等; 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中进 行多序列同时比较,以确定该序列与其它序列间是否存在同源关系。 完成这一工作必须使用多序列比较算法。常用的程序包有 CLUSTAL等;
问题描述: 给定两个序列P, Q,当一个序列R既是P由是Q的子序列时,为P 和Q的公共子序列。 如P=“ABCBDAB”, Q=“BDCABA”则BCA为P与Q的一个公共子 序列,但是BCBA也是公共子序列,而且是最长公共子序列。 因此,关键是寻找最长公共子序列。 AB- C- BDAB BDCAB- A * * * *
(B)
1.这两个序列的cost和score值分别为多少? 2.在序列比对运算时最终结果是哪种运算方 式?
Question: 给定一个DNA打分矩阵:
A A T C G 1
T
C
G
-1 -1 -1 -1 -1 -1
-1 1
-1 -1 1
-1 -1 -1 1
假设空位罚分为2, 按照以上的打分矩阵, 对于下列对齐方案的记分值为多少? GCGACTCG TAGAGACG *** ** CTTGACT- AGA CT- - ACTGTGA ** *** **
ACCGACAATATGCATA ACTGACAATATGGATA
第二条序列头尾颠倒
CTAGTCGAGGCAATCT GAACAGCTTCGTTAGT
?
进行序列比较的方法1
通过点矩阵进行序列比较
“矩阵作图法” 或 “对角线作图”
→ 序列1
→
实例
→ 序 列 2→
Question:
序列比较的方法有哪些?
第2节 Blast的应用
36
Blast简介
BLAST 是基于序列相似性的数据库搜索程序。
BLAST是“局部相似性基本查询工具”
(Basic Local Alignment Search Tool)的缩写。
37
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分求和 的结果,一般来说,匹配片段越长、 相似性越高 则Score值越大。 E value: 氨基酸残基(或碱基)随机排列得到上述 Score值的概率的大小。E值越小表示越匹配。 E=0表示完全配对,不存在随机配对。
42
BLAST的应用
具体步骤
1.登陆blast主页
http://www.ncbi.nlm.nih.gov/BLAST/ 2.根据数据类型,选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果
44
45
46
47
48
49
提高期望阈值(Expect threshold); 降低延伸种子序列的长度(word size) 主要用途:搜索短的基序,如验证 PCR引物的特异性
编辑距离(Edit Distance)
GCATGACGAATCAG TATGACAAACAGC
GCATGACGAATCAG TATGAC-AAACAGC
说明两条序列的相似程度 ——〉定量计算
两条序列的相似程度的定量计算 相似度,它是两个序列的函数,其值越大,表示 两个序列越相似 两个序列之间的距离。距离越大,则两个序列的 相似度就越小
(a)
(b)
(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋白基因 序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进 行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。
进行序列比较的方法2
最长公共子序列问题(Longest common subsequence, LCS)
字符编辑操作(Edit Operation) 字符编辑操作可将一个序列转化 为一个新序列
Match(a,a) Delete(a,-) Replace(a,b) Insert(-,b)
扩展的编辑操作
ACCGACAATATGCATA ATAGGTATAACAGTCA
66
Blastx
67
Blastx
68
Blastx
69
Blastx
Blastx: 分析你的基因编码什么产物? 分析你的基因是否是新基因?
70
Blastx
71
tBlastn
72
tBlastn
73
tBlastn
tBLASTn的作用: 1. 已知一种蛋白序列,在另一物种中进行其同源蛋白 基因的电子克隆(in silico cloning); 2. 寻找一个新的蛋白质序列(如双向电泳得到的)是否 已有核酸序列,是否可以克隆。
AGCACACA ACACACTA (B)
对于(A), score=7-2=5 对于(B), score=5-2=3 序列比对的目的是寻找一个得分最大(或代价 最小)的比对。
Question
s: CAAGCACAGGCA t: CAACACTAGGCA
(A)
CAA GCACAGGCA C AA CACTAGGCA
一致性(identity):
两个蛋白质有一定数量的氨基酸在排比的位点上是相 同的,即如果38个氨基酸的蛋白质中15个位点相同, 我们说它们一致性为39.4%.
MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND
那么,哪个更可靠?
不同编辑操作的代价不同
为编辑操作定义函数w,它表示“代价 (cost)”或“权重(weight)”。
对字母表中的任意字符a、b,定义 w (a, a) = 0 w (a, b) = 1 ab w (a, -) = w ( -, b) = 1
依据,配对得0分,不匹配扣1分。
也可以使用得分(score)函数来评 价编辑操作 p (a, a) = 1 p (a, b) = 0 a b p (a, -) = p ( -, b) = -1 空位罚分。
38
主要的blast程序
程序名 查询序列 数据库 Blastn Blastp 核酸 蛋白质 核酸 搜索方法 核酸序列搜索逐一核酸数据库中 的序列
蛋白质 蛋白质序列搜索逐一蛋白质数据 库中的序列
Blastx
核酸
Tblastn
蛋白质
TBlastx
核酸
蛋白质 核酸序列翻译成蛋白质序列后和 蛋白质数据库中的序列逐一搜 索。 核酸 蛋白质序列和核酸数据库中的核 酸序列翻译后的蛋白质序列逐 一比对。 核酸 核酸序列翻译成蛋白质序列,再 和核酸数据库中的核酸序列翻 译成的蛋白质序列逐一进行比 对。 39
是指一种很直接的数量关系。比如说,A序 列和B序列的相似性是80%,或者4/5。这是 个量化的关系。
序列的相似性
相似性(similarity)
通常在某些位点上有一些氨基酸被另外一些 化学物理特性相近的氨基酸所代替,这种突 变可称为保守突变。 将保守突变的因素考虑在内,就可以对两序 列的相似程度打分,所得分值即代表其相似 的程度。