BLOSUM矩阵和其在生物信息学中的应用

合集下载

BLOSUM矩阵其在生物信息学中应用技术

BLOSUM矩阵其在生物信息学中应用技术

[生工0902]BLOSUM矩阵及其在生物信息学中地应用生物信息学齐阳,汪锴,袁理2011/11/25BLOSUM矩阵及其在生物信息学中地应用齐阳汪锴袁理摘要BLOSUM矩阵是一种蛋白质序列对比地算法,在生物信息学领域中被广泛应用.本文综述了BLOSUM矩阵地由来、如何构建BLOSUM矩阵和其打分规则、应用以及现代算法.并指出了BLOSUM矩阵地发展前景.关键词BLOSUM矩阵;生物信息学;应用0 引言序列比对是现代生物学最基本地研究方法之一, 最常见地比对是蛋白质序什么是BLOSUM矩阵?BLOSUM矩阵有什么应用?列之间或核酸序列之间地两两比对,通过比较两个序列之间地相似区域和保守性位点,寻找二者可能地分子进化关系,进而可以有效地分析和预测一些新发现基因地功能.目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间地相似性,过去所普遍使用地Dayhoff矩阵只能用来进行相似度85%以上地序列对比「1」,为了满足大量生命科学研究地需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好地解决了序列地远距离相关地问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比地常用方法.1BLOSUM矩阵简况序列比对是现代生物学最基本地研究方法之一,常见地比对是蛋白质序列之间或核酸序列之间地两两比对,通过比较两个序列之间地相似区域和保守性位点,寻找二者可能地分子进化关系,进而可以有效地分析和预测一些新发现基因地功能.在比对两个序列时,不仅要考虑完全匹配地字符,还要考虑一个序列中地空格或间隙(或者,相反地,要考虑另一个序列中地插入部分)和不匹配,这两个方面都可能意味着突变「2」.在序列比对中,需要找到最优地比对即将匹配地数量最大化,将空格和不匹配地数量最小化.为了确定最优地比对,必须为每个比对进行评当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见地多,比较保守地替换比起较随机替换更能维持蛋白质地功能,而且不容易被淘汰.因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸地比对位点则相反.一旦和概算或氨基酸残基可能地两两比对得分都确定了,那么得到地打分矩阵就可以用来为比对中每个非空位位点进行评分.为了获得打分矩阵,最常用地方法是统计自然界中各种氨基酸残基地相互替换率「3」.目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间地相似性,过去所普遍使用地Dayhoff矩阵只能用来进行相似度85%以上地序列对比「1」,为了满足大量生命科学研究地需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM 系列,很好地解决了序列地远距离相关地问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比地常用方法.2BLOSUM矩阵地构建2.1多序列比对定义:一个多序列比对A 是一个二维字符矩阵,即A={ni a}(n∈[1,N],i∈[1,I]),其中ni a=ni s或‘-’,并且满足下面三个条件:(1)序列地数目等于矩阵地行数;(2)如果移去每行中地‘-’字符,将得到原来地序列;(3)将不同序列间相同或相似地残基放入同一列,即尽可能将序列间相同或相似残基上下对齐「5」.从上面地定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、插入、删除)地最后结果,它最近似地表示了所有地进化过程.其中删除和插入没有区别,经过适当地插入删除(用insert,delete 表示),可以使相同地保守残基位于同一列上,并使所有地结果序列具有相同地长度.例如:VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWTQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG—2.2 BLOSUM打分规则「6」BLOSUM中得分主要采用Log-odds得分,即同源与非同源地可能性地比率地对数.在BLOSUM中两个残基i与j地得分s(a,b)按照log-odds方程计算,方程如下:1(,)log ab a b p s a b f f =λ-----------------------------------------------(1) 其中, ab p 是指假定残基对a 与b 是同源地, 在已有同源序列比对中出现地目标频率: ,a f f 是指假定残基a 与b 是非同源地与独立地, 残基a 与b 出现在任何一个蛋白质氨基酸序列中地平均背景频率: λ是尺度参数,每个得分四舍五人取整.如果残基对a 与b 是同源地, 则它们出现在同源序列比对中目标频率ab p >a b f f ,s(a,b)<0.如果残基对a 与b 是非同源地, 则它们出现在同源序列比对中目标频率ab p <a b f f ,s(a,b)<0.以相同氨基酸:色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分。

BLOSUM矩阵及其在生物信息学中的应用

BLOSUM矩阵及其在生物信息学中的应用

[生工0902] BLOSUM矩阵及其在生物信息学中的应用生物信息学齐阳,汪锴,袁理2011/11/25什么是BLOSUM矩阵?BLOSUM矩阵有什么应用?BLOSUM矩阵及其在生物信息学中的应用齐阳汪锴袁理摘要BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛应用。

本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、应用以及现代算法。

并指出了BLOSUM矩阵的发展前景。

关键词BLOSUM矩阵;生物信息学;应用0 引言序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。

目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。

1BLOSUM矩阵概况序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。

在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变「2」。

在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。

为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数「3」。

生物信息学名词解释

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。

2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。

3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。

代表测序方法:solid 测序。

4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。

焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。

在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。

例如:454测序仪:用蛋白质序列查找核苷酸序列。

:STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。

它可用PCR方法加以验证。

将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。

在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。

:表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。

生物信息学期末考试答案分析解析

生物信息学期末考试答案分析解析

一、名词Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。

Consensus sequence:共有序列——决定启动序列的转录活性大小。

各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列,是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。

数据挖掘通常是利用计算方法分析生物数据,即根据核酸序列预测蛋白质序列、结构、功能的算法等,实现对现有数据库中的数据进行发掘。

EST:(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段,长度大约为200~600bp。

Similarity:相似性——是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

Homology:同源性——是两个对象间的肯定或者否定的关系。

如两个基因在进化上是否曾具有共同祖先。

从足够的相似性能够判定二者之间的同源性。

Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。

或是指为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时,采用不同的相似性分数矩阵进行检索的相似性矩阵。

以序列片段为基础,从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。

在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。

生物信息学 实验三 数据库搜索-BLAST

生物信息学 实验三 数据库搜索-BLAST

实验三数据库搜索—BLAST1. Nucleotide BLAST在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn 中限制序列搜索范围为272-1420(编码区)。

分别用megablast, discontiguous megablast 和 blastn 进行搜索。

这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256, discontiguous megablast的单词单位默认为11,可选为11和12, blastn单词单位默认为11,可选范围为7,11和15。

Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻找与 query 高度相似的序列; blastn则用于寻找与 query 有一定相似度的序列。

单词单位越小,敏感度越高,也就是说,Megablast敏感度最差,discontiguous megablast 居中,blastn 最高。

Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。

三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具Methods Number Identity(%)Max score Megablast154172-10073.1-2122 discontiguous megablast652763-10044.6-2073 blastn116676310044.6-2073截取30bp的片段进行blastn搜索,默认参数设置如下图:搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下找到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,提高敏感度,而将 E-value 调大,确保有搜索结果出现。

生物信息学_复习题及答案(打印)(1)

生物信息学_复习题及答案(打印)(1)

生物信息学_复习题及答案(打印)(1)一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

生物信息学实验报告

生物信息学实验报告

生物信息学实验报告班级::学号:日期:实验一核酸和蛋白质序列数据的使用实验目的了解常用的序列数据库,掌握基本的序列数据信息的查询方法。

教学基本要求了解和熟悉NCBI 核酸和蛋白质序列数据库,可以使用BLAST进行序列搜索,解读BLAST 搜索结果,可以利用PHI-BLAST 等工具进行蛋白质序列的结构域搜索,解读蛋白质序列信息,可以在蛋白质三维数据库中查询相关结构信息并进行显示。

实验容提要在序列数据库中查找某条基因序列(BRCA1),通过相关一系列数据库的搜索、比对与结果解释,回答以下问题:1. 该基因的基本功能?2. 编码的蛋白质序列是怎样的?3. 该蛋白质有没有保守的功能结构域 (NCBI CD-search)?4. 该蛋白质的功能是怎样的?5. 该蛋白质的三级结构是什么?如果没有的话,和它最相似的同源物的结构是什么样子的?给出示意图。

实验结果及结论1. 该基因的基本功能?This gene encodes a nuclear phosphoprotein that plays a role in maintaining genomic stability, and it also acts as a tumor suppressor. The encoded protein combines with other tumor suppressors, DNA damagesensors, and signal transducers to form a large multi-subunit protein complex known as the BRCA1-associated genome surveillance complex (BASC). This gene product associates with RNA polymerase II, and through the C-terminal domain, also interacts with histone deacetylase complexes. This protein thus plays a role in transcription, DNA repair of double-stranded breaks, and recombination. Mutations in this gene are responsible for approximately 40% of inherited breast cancers and more than 80% of inherited breast and ovarian cancers. Alternative splicing plays a role in modulating the subcellular localization and physiological function of this gene. Many alternatively spliced transcript variants, some of which are disease-associated mutations, have been described for this gene, but the full-length natures of only some of these variants has been described. A related pseudogene, which is also located on chromosome 17, has been identified. [provided by RefSeq, May 2009]2. 编码的蛋白质序列是怎样的?[Homo sapiens]1 mdlsalrvee vqnvinamqk ilecpiclel ikepvstkcd hifckfcmlk llnqkkgpsq61 cplcknditk rslqestrfs qlveellkii cafqldtgle yansynfakk ennspehlkd121 evsiiqsmgy rnrakrllqs epenpslqet slsvqlsnlg tvrtlrtkqr iqpqktsvyi181 elgsdssedt vnkatycsvg dqellqitpq gtrdeislds akkaacefse tdvtntehhq241 psnndlntte kraaerhpek yqgssvsnlh vepcgtntha sslqhenssl lltkdrmnve301 kaefcnkskq pglarsqhnr wagsketcnd rrtpstekkv dlnadplcer kewnkqklpc361 senprdtedv pwitlnssiq kvnewfsrsd ellgsddshd gesesnakva dvldvlnevd421 eysgssekid llasdpheal ickservhsk svesniedki fgktyrkkas lpnlshvten481 liigafvtep qiiqerpltn klkrkrrpts glhpedfikk adlavqktpe minqgtnqte541 qngqvmnitn sghenktkgd siqneknpnp ieslekesaf ktkaepisss isnmelelni601 hnskapkknr lrrksstrhi halelvvsrn lsppnctelq idscssseei kkkkynqmpv661 rhsrnlqlme gkepatgakk snkpneqtsk rhdsdtfpel kltnapgsft kcsntselke721 fvnpslpree keekletvkv snnaedpkdl mlsgervlqt ersvesssis lvpgtdygtq781 esisllevst lgkaktepnk cvsqcaafen pkglihgcsk dnrndtegfk yplghevnhs 841 retsiemees eldaqylqnt fkvskrqsfa pfsnpgnaee ecatfsahsg slkkqspkvt 901 feceqkeenq gknesnikpv qtvnitagfp vvgqkdkpvd nakcsikggs rfclssqfrg 961 netglitpnk hgllqnpyri pplfpiksfv ktkckknlle enfeehsmsp eremgnenip 1021 stvstisrnn irenvfkeas ssninevgss tnevgssine igssdeniqa elgrnrgpkl 1081 namlrlgvlq pevykqslpg snckhpeikk qeyeevvqtv ntdfspylis dnleqpmgss 1141 hasqvcsetp ddllddgeik edtsfaendi kessavfsks vqkgelsrsp spfththlaq 1201 gyrrgakkle sseenlssed eelpcfqhll fgkvnnipsq strhstvate clsknteenl 1261 lslknslndc snqvilakas qehhlseetk csaslfssqc seledltant ntqdpfligs 1321 skqmrhqses qgvglsdkel vsddeergtg leennqeeqs mdsnlgeaas gcesetsvse 1381 dcsglssqsd ilttqqrdtm qhnliklqqe maeleavleq hgsqpsnsyp siisdssale 1441 dlrnpeqsts ekavltsqks seypisqnpe glsadkfevs adsstsknke pgversspsk 1501 cpslddrwym hscsgslqnr nypsqeelik vvdveeqqle esgphdltet sylprqdleg 1561 tpylesgisl fsddpesdps edrapesarv gnipsstsal kvpqlkvaes aqspaaahtt 1621 dtagynamee svsrekpelt astervnkrm smvvsgltpe efmlvykfar khhitltnli 1681 teetthvvmk tdaefvcert lkyflgiagg kwvvsyfwvt qsikerkmln ehdfevrgdv 1741 vngrnhqgpk raresqdrki frgleiccyg pftnmptdql ewmvqlcgas vvkelssftl 1801 gtgvhpivvv qpdawtedng fhaigqmcea pvvtrewvld svalyqcqel dtylipqiph 1861 shy3. 该蛋白质有没有保守的功能结构域 (NCBI CD-search)?有保守的供能结构域。

常用生物信息学软件BLAST

常用生物信息学软件BLAST

Blast的主程序是blastall。程序的输入文件是query序列(-i 参数)和库文件(-d 参数),比对类型的 选择(-p 参数)和输出文件(-o 参数)由用户指定。其中“-p”参数有 5 种取值: -p blastp:蛋白序列与蛋白库做比对。 -p blastx:核酸序列对蛋白库的比对。 -p blastn:核酸序列对核酸库的比对。 -p tblastn:蛋白序列对核酸库的比对。 -p tblastx:核酸序列对核酸库在蛋白级别的比对。 这些元素就构成了blast的基本运行命令(以blastn为例): blastall -i query.fasta -d database_prefix -o blast.out -p blastn 其中如果"-o"参数缺省,则结果输出方式为屏幕输出。下面以一个blastn比对为例,来说明比对全过程: Query序列(query.fasta): >gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c gene AGGAAGAGGAGCTCCTTTCGATCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA CCTCTGGAGTGCATGGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGGAGATGAAC CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT >gi|45593932|gb|AY551258.1| Oryza sativa precursor microRNA 319b gene CATATTCTTTTAATTTGATGGAAGAAGCGATCGATGGATGGAAGAGAGCGTCCTTCAGTCCACTCATGGG CGGTGCTAGGGTCGAATTAGCTGCCGACTCATTCACCCACATGCCAAGCAAGAAACGCTTGAGATAGCGA AGCTTAGCAGATGAGTGAATGAAGCGGGAGGTAACGTTCCGATCTCGCGCCGTCTTTGCTTGGACTGAAG GGTGCTCCCTCCTCCTCGATCTCTTCGATCTAATTAAGCTACCTTGACAT 库文件Database(db.seq,已经运行formatdb -i db.seq -p F -o T建库): >fake_seq AGGAAGAGGAGCTCCTTTCGTTCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA CCTCTGGAGTGCATGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGCGAGATGAAC CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT 运行命令: blastall -i query.fasta -d db.seq -o blast.out -p blastn 运行结果: BLASTN 2.2.8 [Jan-05-2004] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c gene, complete sequence

生物信息学课后题及答案

生物信息学课后题及答案

生物信息学课后习题及答案(由10级生技一、二班课代表整理)一、绪论1.你认为,什么是生物信息学?采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于:在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。

(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。

3.人类基因组计划与生物信息学有什么关系?人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。

而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。

1990,人类基因组计划正式启动。

1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。

1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。

Celera公司加入,与公共领域竞争启动水稻基因组计划。

1999,第五届国际公共领域人类基因组测序会议,加快测序速度。

2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

2001,人类基因组“中国卷”的绘制工作宣告完成。

2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。

2004,人类基因组完成图公布。

生物信息学原理题库

生物信息学原理题库

一、关于BLAST简述BLAST搜索的算法思想。

答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字〞word〞;当一定长度的的字〔W〕与检索序列的比对达到一个指定的最低分〔T〕后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段〔HSP〕,程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段〔MSP〕,这样,BLAST 既保持了整体的运算速度,也维持了比对的精度。

BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列〔双链〕按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对BLAST中,E值和P值分别是什么,它们有什么意义?•答:BLAST中使用的统计值有概率p值和期望e值。

• E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。

这一数值越接近零,发生这一事件的可能性越小。

从搜索的角度看,E值越小,比对结果越显著。

默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。

生物信息学题库--精校+整理

生物信息学题库--精校+整理

生物信息学题库一、名词解释1.生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础, 应用计算机技术, 研究生物学数据的科学。

2.相似性(similarity):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA 碱基或氨基酸残基顺序所占比例的高低。

3.同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。

4.BLAST(Basic Local Alignment Search Tool):基本局部比对搜索工具, 用于相似性搜索的工具, 对需要进行检索的序列与数据库中的每个序列做相似性比较。

5.HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型, 包括序列的匹配, 插入和缺失状态, 并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。

6.一级数据库:一级数据库中的数据直接来源于实验获得的原始数据, 只经过简单的归类整理和注释(投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中)7、二级数据库:对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

8、GenBank: 是具有目录和生物学注释的核酸序列综合公共数据库, 由NCBI构建和维护。

9、EMBL: EMBL 实验室: 欧洲分子生物学实验室。

EMBL 数据库: 是非盈利性学术组织 EMBL 建立的综合性数据库, EMBL 核酸数据库是欧洲最重要的核酸序列数据库, 它定期地与美国的GenBank、日本的 DDBJ 数据库中的数据进行交换, 并同步更新。

10、DDBJ: 日本核酸序列数据库, 是亚洲唯一的核酸序列数据库。

11.Entrez:是由 NCBI 主持的一个数据库检索系统, 它包括核酸, 蛋白以及 Medline 文摘数据库, 在这三个数据库中建立了非常完善的联系。

12.SRS(sequence retrieval system):序列查询系统, 是 EBI 提供的多数据库查询工具之一。

生物信息学(上海海洋大学)智慧树知到课后章节答案2023年下上海海洋大学

生物信息学(上海海洋大学)智慧树知到课后章节答案2023年下上海海洋大学

生物信息学(上海海洋大学)智慧树知到课后章节答案2023年下上海海洋大学上海海洋大学第一章测试1.生物信息学涉及到以下哪些学科?答案:生物统计学; 生物学;计算机科学2.生物大分子序列里包含了哪些信息?答案:序列信息;功能信息;进化信息;结构信息3.中心法则论述的是遗传信息的流动法则,是指生物大分子的序列决定结构,结构决定功能。

答案:错4.数据是经过加工的信息,对我们做判断和决策有用。

答案:错5.以下哪些观点不是达尔文的《物种起源》提出来的?答案:上帝创造万物6.人类基因组工作草图是什么时候发表的?答案:20017.学好生物信息学最重要的途径是多练习多实践。

答案:对8.世界上最主要的测序公司之一华大基因,是在哪个国家成立的?答案:中国9.以下哪位科学家提出了分子钟假说?答案:泡林 Pauling10.以下哪些组学研究属于生物信息学研究内容?答案:转录组学;基因组学;表观组学;蛋白质组学第二章测试1.以下哪个数据库不是NCBI的子数据库?答案:genecard2.以下哪些数据库属于一级结构数据库?Genbank ;PDB3.在线生物大分子数据库,不可以通过以下哪种方式进行数据查询?答案:电话查询4.在对基因进行查询的时候,如果我们查询的是“cell division[GO]”,我们是通过一下哪种信息对基因进行查询?答案:基因的功能5.蛋白质的profile描述的是具有多个motif的蛋白质家族中,它们具有哪些Motif,以及这些motif的空间分布答案:错6.蛋白质三级结构的实验测定方法包括( )电子显微镜;核磁共振;X光衍射7.ENSEMBL中的gene tree,收集的是同源基因序列答案:对8.KEGG包括以下几类子数据库()答案:chemical information;system information;genomic information; health infromation9.PDB是一个基于功能域进行分类的蛋白质序列数据库。

生物信息学技术在研究中的应用

生物信息学技术在研究中的应用

生物信息学技术在研究中的应用生物信息学技术是一种充满潜力的科学技术,它的出现对于生物学研究具有深远的影响。

生物信息学技术不仅可以提高生物学研究的效率,还可以为生物学家们提供更多的信息和数据。

因此,本文将探讨生物信息学技术在生物学研究中的应用。

首先,生物信息学技术在基因组学研究中的应用是非常重要的。

基因组学是研究生物体的基因组结构、组成和变异等方面的学科。

这方面的研究需要大量的数据和信息,包括DNA序列、RNA序列和蛋白质序列等。

生物信息学技术可以对这些序列数据进行处理和分析,可以提高数据的处理速度和精度,从而帮助研究人员更加深入地了解生物体的基因组结构和组成。

其次,生物信息学技术在蛋白质结构和功能研究中也具有很大的应用价值。

蛋白质是生物体内的重要功能分子,其结构和功能的研究对生命科学的发展具有巨大的意义。

生物信息学技术可以通过结合实验数据和计算模型,预测和研究蛋白质的结构和功能,为进一步深入探究蛋白质分子提供了重要的方法和手段。

再次,生物信息学技术在疾病研究和药物研发方面也具有很大的作用。

生物信息学技术可以对人类基因组序列进行分析和比对,识别出与疾病相关的遗传变异,尤其是针对复杂疾病的基因变异分析具有非常重要的作用。

同时,生物信息学技术还可以在药物研发方面提供重要的辅助手段,如对药物的作用机制进行研究和预测,从而有效地提高药物研发的效率和成功率。

最后,生物信息学技术在生物大数据的处理和应用方面也具有非常重要的作用。

随着生物信息学研究的深入和数据规模的扩大,生物大数据已成为生物信息学研究领域的一个重要研究方向。

生物信息学技术可以通过大数据挖掘、分析和整合等方法,为生物学家们提供更加全面和深入的数据支持,从而促进生物学的发展和进步。

综上所述,生物信息学技术在生物学研究中具有非常广泛和重要的应用,其发展和应用对生物学的研究具有深远的影响。

然而,由于生物信息学技术的不断发展和进化,其研究和应用仍面临着许多困难和挑战,需要通过更加深入的研究和合作,进一步提高技术的精度和价值,为生物学的未来发展注入新的活力和动力。

生物信息学主要内容

生物信息学主要内容

第二章:生物分子数据库1.生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。

初(一)级数据库贮存原始的生物数据,如DNA 序列,由晶体衍射(Crystallography)获得的蛋白质结构等。

二级数据(衍生数据库)是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用,如真核生物启动子序列库EPD 和蛋白质一般结构或功能模体(motif)数据库PROSITE。

2.核酸数据库:(1)DNA 序列构成了初级数据库的主体部分。

目前国际上有3个主要的DNA序列公共数据库:EMBL,GenBank(NCBI)和DDBJ。

这3个大型数据库于1988 年达成协议,组成合作联合体。

它们每天交换信息,并对数据库DNA 序列记录的统一标准达成一致。

每个机构负责收集来自不同地理分布的数据,然后来自各地的所有信息汇总在一起,3 个数据库共同享有并向世界开放,故这3 个数据库又被称为公共序列数据库。

所以从理论上说,这3 个数据库所拥有的DNA 序列数据是完全相同的。

(2)第二个主要的初级数据源来自各种基因组计划。

一些基因组计划已经完成,如真核生物酵母, 原肠生物和3个原核生物流感嗜血杆菌、和大肠杆菌等。

这些计划的大部分信息在EMBL中均可找到。

3.核酸序列数据库格式:(1)每个序列由被称为平面文件的文本记录代表;(2)GenBank/GenPept (useful for scientists);FASTA (the simplest format);ASN.1 (抽象语法符号)& XML (useful for programmers)(3)EMBL和GenBank数据库的主要内容和格式:序列名称、长度、日期;序列说明、编号、版本号;物种来源、学名、分类学位置;相关文献作者、题目、刊物、日期;序列特征表;碱基组成;序列(每行60个碱基)【header,feature table,sequence】4.蛋白质数据库:(1)蛋白质序列数据库:SWISS-PROT 和PIR 是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL 和GenBank 数据库上均建立了镜像 (mirror) 站点。

生物信息大数据智慧树知到答案章节测试2023年温州医科大学

生物信息大数据智慧树知到答案章节测试2023年温州医科大学

第一章测试1.被誉为“生物信息学之父”的科学家是().A:吴瑞B:林华安C:DulbeccoD:Sanger答案:B2.没有直接参与完成人类基因组计划的国家是()。

A:中国B:德国C:英国D:俄罗斯答案:D3.人类基因组计划要完成的几张图谱分别是()A:序列图谱B:物理图谱C:遗传图谱D:生物图谱E:基因图谱答案:ABCE4.生物信息学主要研究的两种信息载体是()A:转录因子B:启动子C:氨基酸序列D:核酸序列E:转座子答案:CD5.分子生物学与细胞生物学领域以DNA-RNA-蛋白质为对象,分析编码区和非编码区中信息结构和编码特征,以及相应的信息调节与表达规律。

()A:错B:对答案:B第二章测试1.DDBJ的含义是()。

A:欧洲分子生物学实验室B:美国国家生物信息中心C:日本DNA数据库D:中国基因组研究中心答案:C2.如果我们试图做蛋白质亚细胞定位分析,应使用()。

A:PDB数据库B:NDB数据库C:GenBank数据库D:SWISS-PROT 数据厍答案:D3.()是现在国际上最主要的三大核酸序列数据库A:EBIB:NCBIC:DDBJD:EMBLE:GenBank答案:CDE4.生物学数据库存放数据类型有哪些?()A:序列特征B:三维结构C:序列D:文献E:基因组图谱答案:ABCDE5.KEGG数据库是一个综合数据库,整合了基因组、化学和系统功能信息,并建立了跨物种间的联系。

()A:对B:错答案:A第三章测试1.假设你有两条远源相关蛋白质序列。

为了比较它们,最好使用下列哪个BLOSUM和PAM矩阵()A:BLOSUM45和PAM1B:BLOSUM45和PAM250C:BLOSUM80和PAM250D:BLOSUM10和PAM1答案:B2.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列,应选择()A:tblastnB:blastnC:tblastpD:blastpE:blastx答案:E3.最常用的序列相似性查询工具是()A:BLASTB:PIRC:PDBD:FASTAE:SWISS-PROT答案:AD4.多序列比对的工具有哪些()A:MAFFT工具B:MultAlinC:T-coffeeD:ClustalWE:ClustalX答案:ABCDE5.所谓局部比对是找出两个被比较序列的最类似片段。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[生工0902] BLOSUM矩阵及其在生物信息学中的使用生物信息学齐阳,汪锴,袁理2011/11/25什么是BLOSUM矩阵?BLOSUM矩阵有什么使用?BLOSUM矩阵及其在生物信息学中的使用齐阳汪锴袁理摘要BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛使用。

本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、使用以及现代算法。

并指出了BLOSUM矩阵的发展前景。

关键词BLOSUM矩阵;生物信息学;使用0 引言序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。

目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。

1BLOSUM矩阵概况序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。

在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变「2」。

在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。

为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数「3」。

当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰。

因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。

一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。

为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率「3」。

目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。

2BLOSUM矩阵的构建2.1多序列比对定义:一个多序列比对A 是一个二维字符矩阵,即A={ni a}(n∈[1,N],i∈[1,I]),其中ni a= ni s或‘-’,并且满足下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的‘-’字符,将得到原来的序列;(3)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐「5」。

从上面的定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、插入、删除)的最后结果,它最近似地表示了所有的进化过程。

其中删除和插入没有区别,经过适当地插入删除(用insert ,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。

例如:VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWTQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG —2.2 BLOSUM 打分规则「6」BLOSUM 中得分主要采用Log-odds 得分,即同源和非同源的可能性的比率的对数。

在BLOSUM 中两个残基i 和j 的得分s (a ,b )按照log-odds 方程计算,方程如下:1(,)log ab a b p s a b f f =λ-----------------------------------------------(1) 其中, ab p 是指假定残基对a 和b 是同源的, 在已有同源序列比对中出现的目标频率: ,a f f 是指假定残基a 和b 是非同源的和独立的, 残基a 和b 出现在任何一个蛋白质氨基酸序列中的平均背景频率: λ是尺度参数,每个得分四舍五人取整.如果残基对a 和b 是同源的, 则它们出现在同源序列比对中目标频率ab p >a b f f ,s(a,b)<0.如果残基对a 和b 是非同源的, 则它们出现在同源序列比对中目标频率ab p <a b f f ,s(a,b)<0.以相同氨基酸: 色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分;不同氨基酸: 丙氨酸/亮氨酸(A/L)比对得分和赖氨酸/谷氨酸(K/E)比对得分为例, 介绍计算过程.p=0.0065,1)色氨酸/色氨酸(W/W)比对得分;在同源比对数据库中,测得wwf=0-013,λ=0.347,代入(1)得s(W/W)=+10.5,取整得+11;w2)亮氨酸/亮氨酸(L/L)比对得分;在同源比对数据库中,测得ll p=0.0371,l f=0.099,λ=0.347,代入(1)得s(L/L)=+3.8,取整得+4;p=0.0044,3)丙氨酸/亮氨酸(A/L)比对得分;在同源比对数据库中,测得ALf=0.074,L f=0.099 λ=0.347,代入(1)得s(K/E)=-1.47,取整得-1;Ap=0.0041,4)赖氨酸/谷氨酸(K/E)比对得分;在同源比对数据库中,测得KEk f=0.058,E f=0.054,λ=0.347,代入(1)得s(K/E)=+0.76,取整得+1;将BLOSUM-1矩阵和自身相乘,可以近似得到高阶BLOSUM单位的替换率。

可以根据序列的长度以及序列间的先验相似程度来选用特定的BLOSUM矩阵,低价BLOSUM矩阵更多是用来比较比较亲缘较远的序列,一般来说,BLOSUM-62矩阵适于用来比较大约具有62%相似度的序列,而BLOSUM-80矩阵更适合于相似度为80%左右的序列「3」。

运用上述计算方法,就可得到BLOSUM62,见Table 1.Blosum62替代矩阵。

3BLOSUM矩阵的使用基于进化原理的氨基酸保守性打分矩阵BLOSUM,原本是用于两条多肽链比对时使用的,其起源于相同的氨基酸模式之间氨基酸的保守性,即某种氨基酸对另一种氨基酸的取代数据,广泛用于蛋白质数据库的搜索。

最近BLOSUM 被成功用于表面抗原分析、T细胞抗原决定簇预测「7」、氨基酸定点突变后蛋白质的稳定性等多种重要科学研究中,对于常用的数据集经过严格的交叉验证,人们已经发现BLOSUM矩阵明显优于目前通常采用的理化特性打分方法和单位打分方法「8」。

随着后基因组时代的到来,适和远亲分析的BLOSUM一定可以有更大的用武之地,以解决生命科学中的诸多难题。

3.1表面抗原分析为分析HBV的表面抗原,对两个病人人群进行跟踪研究:一组是52位患病1年以上的慢性HBV感染携带者,另一组是129位新诊断的患者。

获得这180名患者乙肝表面抗原的DNA序列然后和来自于基因库的168个全长HBV序列比较序列一致性。

乙肝病毒表面抗原亲水区域的多态性用突变大师软件来分析。

参考文献和BLOSUM打分「9」被用来分析潜在改变的抗原性。

3.2 T细胞抗原决定簇预测为进一步预测T细胞抗原决定簇的结构,Huang L和Dai Y做了进一步研究,将BLOSUM矩阵「10」和氨基酸指标向量结合,在BLOSUM 矩阵中代替了氨基酸指标向量的每一个非零项,使相应的值出现在对角线项,这种方法可以把氨基酸的位置和相似度用BLOSUM打分「9」的形式简单表现出来。

3.3磷酸化位点的预测磷酸化作用在多种真核细胞中具有重要的作用,例如有丝分裂、新陈代谢「1」以及信号传导「10」等。

蛋白激酶在蛋白底物中催化特定的受体氨基酸,每一种激酶只催化它特定的底物子集。

蛋白激酶的失活会导致疾病,因此了解特定蛋白激酶的磷酸化作用机制有重要意义。

而利用实验手段或质谱分析「11」、缩氨酸微阵列「12」和特定磷蛋白质水解「13」等方法分析磷酸化蛋白质组都有很多缺陷,但有一种方法在磷酸化位点预测上有明显优势-----基于k邻近的蛋白激酶特异性预测方法「14」,此方法可以对不同激酶家族的磷酸化作用位点进行标注。

由BLOSUM62打分矩阵得到的相似度函数作为系统的输入向量。

3.4蛋白质定点突变稳定性预测准确率定点突变技术的潜在使用领域很广,比如研究蛋白质相互作用位点的结构特性、酶学和酶工程中改造酶的不同活性或动力学特性、改造启动子或DNA 相互作用元件、研究蛋白质晶体结构,以及药物研发、提高蛋白抗原性或稳定性和活性等。

何种程度的变异会影响野生型蛋白的稳定性,以及突变后该蛋白质稳定性的改变,是设计蛋白质或对蛋白质进行点突变分析时的关键。

但是实验测定的精确方法需要昂贵的设备和较长的实验时间,因此现在多使用生物信息学的方法。

有人使用BLOSUM62预测氨基酸定点突变后蛋白质的稳定性,并对常用的数据集经过严格的交叉验证发现其明显优于目前通常采用的理化特性打分方法和单位打分法「8」。

4BLOSUM矩阵的挑战和发展4.1 BLOSUM矩阵和PAM矩阵的比较(1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍。

(2)低价PAM矩阵适合用来比较亲缘较近的序列,而低价BLOSUM矩阵更多是用来比较亲缘较远的序列。

(3)在BLOSUM中,通过统计聚类技术来对相关蛋白质的无空位比对进行分类,并且计算类间的替换率。

当观察某对氨基酸得到的替换率很低时就会带来一些统计问题,而BLOSUM的方法正好能够避免此类问题。

4.2 基于BLOSUM矩阵的一些现代算法由于BLOSUM打分矩阵的上述优点,已被各种现代算法所利用,发挥不同领域的作用于功能。

下面将介绍几种使用BLOSUM打分矩阵最多的算法,对它们的优缺点进行简单阐述。

4.2.1 动态规划算法其指导思想就是在多级过程的每一级上列出各种可行的局部解。

该方法由Needle-man 和Wunsch 于1970 年提出,最初用于求两个序列的最佳比对。

相关文档
最新文档