序列比对基础与BLAST入门打分矩阵
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
glycine tryptophan serine tyrosine cysteine asparagine glutarmine threonine
aspartic acid glutarmic acid
arginine histidine lysine
丙氨酸 缬氨酸 亮氨酸 异亮氨酸 苯丙氨酸 脯氨酸 甲硫氨酸
GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
可以把这种只考虑碱基同一性的矩阵理解为一个 分数值为1和0的分数矩阵,即相同残基的分数值 为1,不同残基的分数值为0。
用于核酸比对的简单打分矩阵
ACGT A1000 C0100 G0 0 1 0 T0001
单一打分矩阵
ACGT A 5 -4 -4 -4 C -4 5 -4 -4 G -4 -4 5 -4 T -4 -4 -4 5
|| | || | || |
| | | | | | | | | | || | | | | || | | | | | | | | | || | | | | |
CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCAT
上述序列比对过程中,只考虑了碱基的同一性, 即两个序列之间完全相同的匹配碱基数目。
序列比对基础与BLAST入门
序列比对的基本原理
提出比对要考虑的问题 专业
算法(构建打分矩阵) 数学
程序
计算机
打分
搜索数据库
计算机
给出比对结果(比对分数、显著性检验)
一、算法与程序
算法是指按照一定的方式描述计算过程或处理 某个问题的一系列步骤。
程序则是算法的具体实现,也就是用某种计算 机语言编写的实现某个算法的一组指令集合。
M (芳香族氨基酸
G F、W、Y )
W
S
Y C
极性中性氨基酸
N
Q
(含硫氨基酸
T
C、M )
D E
酸性氨基酸
R
H
碱性氨基酸
K
王镜岩编《生物化学》(第三版)第127页
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
不同物种3磷酸甘油醛脱氢酶多序列比对
一个算法可能会有多种实现的方法。如果算法 的描述或定义明确,那么这些不同的实现方法, 即不同的程序应给出同样的结果。
二、打分矩阵( Scoring Matrix )简介
要对两个序列进行比对,必须首先打出其相似 性的定量分值,于是需要一个打分矩阵。
矩阵( Matrix ) :是由m×n个数组成的一个m行 n列的矩形表格。
矩阵( Matrix )
某公司生产四种产品A、B、C、D,第一季度的 销量分别如下表所示:
产品销量(件)
月份 A B C D
一月 300 250 220 180
二月 320 230 200 200
三月 310 280 210 220
百度文库
矩阵( Matrix )
为了研究方便,在数学中常把表中的说明去掉, 将上表简化为如下的矩形数表:
甘氨酸 色氨酸 丝氨酸 酪氨酸 半胱氨酸 天冬酰氨 谷氨酰胺 苏氨酸
天冬氨酸 谷氨酸
精氨酸 组氨酸 赖氨酸
氨基酸分类
Ala Val Leu Ile Phe Pro Met
Gly Trp Ser Tyr Cys Asn Gln Thr
Asp Glu
Arg His Lys
A
V
L I
非极性疏水性
F
氨基酸
P
300 250 220 180 320 230 200 200 310 280 210 220
由3×4个数组成的一个3行4列的矩形表格。此 表在数学上称为矩阵(纵横排列的二维数据表 格)。
核酸打分矩阵
----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC
LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
|
|.
| : |||| | :
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸 (亲水,含羟基)
2.碱性氨基酸
alanine valine leucine isoleucine phenylalanine proline methionine
BLAST打分矩阵
蛋白质打分矩阵
保守性替换(conservative substitution) 通常在某些位点上有一些氨基酸被另外一些理化特性相
似的氨基酸所代替,这种突变可称为保守性替换。保守性 替换一般不会影响蛋白质的结构和功能。
与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残 基是否相同,还要考虑残基是否相似以及相似的不同程度。
KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST
aspartic acid glutarmic acid
arginine histidine lysine
丙氨酸 缬氨酸 亮氨酸 异亮氨酸 苯丙氨酸 脯氨酸 甲硫氨酸
GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
可以把这种只考虑碱基同一性的矩阵理解为一个 分数值为1和0的分数矩阵,即相同残基的分数值 为1,不同残基的分数值为0。
用于核酸比对的简单打分矩阵
ACGT A1000 C0100 G0 0 1 0 T0001
单一打分矩阵
ACGT A 5 -4 -4 -4 C -4 5 -4 -4 G -4 -4 5 -4 T -4 -4 -4 5
|| | || | || |
| | | | | | | | | | || | | | | || | | | | | | | | | || | | | | |
CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCAT
上述序列比对过程中,只考虑了碱基的同一性, 即两个序列之间完全相同的匹配碱基数目。
序列比对基础与BLAST入门
序列比对的基本原理
提出比对要考虑的问题 专业
算法(构建打分矩阵) 数学
程序
计算机
打分
搜索数据库
计算机
给出比对结果(比对分数、显著性检验)
一、算法与程序
算法是指按照一定的方式描述计算过程或处理 某个问题的一系列步骤。
程序则是算法的具体实现,也就是用某种计算 机语言编写的实现某个算法的一组指令集合。
M (芳香族氨基酸
G F、W、Y )
W
S
Y C
极性中性氨基酸
N
Q
(含硫氨基酸
T
C、M )
D E
酸性氨基酸
R
H
碱性氨基酸
K
王镜岩编《生物化学》(第三版)第127页
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
不同物种3磷酸甘油醛脱氢酶多序列比对
一个算法可能会有多种实现的方法。如果算法 的描述或定义明确,那么这些不同的实现方法, 即不同的程序应给出同样的结果。
二、打分矩阵( Scoring Matrix )简介
要对两个序列进行比对,必须首先打出其相似 性的定量分值,于是需要一个打分矩阵。
矩阵( Matrix ) :是由m×n个数组成的一个m行 n列的矩形表格。
矩阵( Matrix )
某公司生产四种产品A、B、C、D,第一季度的 销量分别如下表所示:
产品销量(件)
月份 A B C D
一月 300 250 220 180
二月 320 230 200 200
三月 310 280 210 220
百度文库
矩阵( Matrix )
为了研究方便,在数学中常把表中的说明去掉, 将上表简化为如下的矩形数表:
甘氨酸 色氨酸 丝氨酸 酪氨酸 半胱氨酸 天冬酰氨 谷氨酰胺 苏氨酸
天冬氨酸 谷氨酸
精氨酸 组氨酸 赖氨酸
氨基酸分类
Ala Val Leu Ile Phe Pro Met
Gly Trp Ser Tyr Cys Asn Gln Thr
Asp Glu
Arg His Lys
A
V
L I
非极性疏水性
F
氨基酸
P
300 250 220 180 320 230 200 200 310 280 210 220
由3×4个数组成的一个3行4列的矩形表格。此 表在数学上称为矩阵(纵横排列的二维数据表 格)。
核酸打分矩阵
----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC
LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
|
|.
| : |||| | :
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸 (亲水,含羟基)
2.碱性氨基酸
alanine valine leucine isoleucine phenylalanine proline methionine
BLAST打分矩阵
蛋白质打分矩阵
保守性替换(conservative substitution) 通常在某些位点上有一些氨基酸被另外一些理化特性相
似的氨基酸所代替,这种突变可称为保守性替换。保守性 替换一般不会影响蛋白质的结构和功能。
与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残 基是否相同,还要考虑残基是否相似以及相似的不同程度。
KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST