BLOSUM矩阵及其在生物信息学中的应用
BLOSUM矩阵其在生物信息学中应用技术
[生工0902]BLOSUM矩阵及其在生物信息学中地应用生物信息学齐阳,汪锴,袁理2011/11/25BLOSUM矩阵及其在生物信息学中地应用齐阳汪锴袁理摘要BLOSUM矩阵是一种蛋白质序列对比地算法,在生物信息学领域中被广泛应用.本文综述了BLOSUM矩阵地由来、如何构建BLOSUM矩阵和其打分规则、应用以及现代算法.并指出了BLOSUM矩阵地发展前景.关键词BLOSUM矩阵;生物信息学;应用0 引言序列比对是现代生物学最基本地研究方法之一, 最常见地比对是蛋白质序什么是BLOSUM矩阵?BLOSUM矩阵有什么应用?列之间或核酸序列之间地两两比对,通过比较两个序列之间地相似区域和保守性位点,寻找二者可能地分子进化关系,进而可以有效地分析和预测一些新发现基因地功能.目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间地相似性,过去所普遍使用地Dayhoff矩阵只能用来进行相似度85%以上地序列对比「1」,为了满足大量生命科学研究地需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好地解决了序列地远距离相关地问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比地常用方法.1BLOSUM矩阵简况序列比对是现代生物学最基本地研究方法之一,常见地比对是蛋白质序列之间或核酸序列之间地两两比对,通过比较两个序列之间地相似区域和保守性位点,寻找二者可能地分子进化关系,进而可以有效地分析和预测一些新发现基因地功能.在比对两个序列时,不仅要考虑完全匹配地字符,还要考虑一个序列中地空格或间隙(或者,相反地,要考虑另一个序列中地插入部分)和不匹配,这两个方面都可能意味着突变「2」.在序列比对中,需要找到最优地比对即将匹配地数量最大化,将空格和不匹配地数量最小化.为了确定最优地比对,必须为每个比对进行评当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见地多,比较保守地替换比起较随机替换更能维持蛋白质地功能,而且不容易被淘汰.因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸地比对位点则相反.一旦和概算或氨基酸残基可能地两两比对得分都确定了,那么得到地打分矩阵就可以用来为比对中每个非空位位点进行评分.为了获得打分矩阵,最常用地方法是统计自然界中各种氨基酸残基地相互替换率「3」.目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间地相似性,过去所普遍使用地Dayhoff矩阵只能用来进行相似度85%以上地序列对比「1」,为了满足大量生命科学研究地需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM 系列,很好地解决了序列地远距离相关地问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比地常用方法.2BLOSUM矩阵地构建2.1多序列比对定义:一个多序列比对A 是一个二维字符矩阵,即A={ni a}(n∈[1,N],i∈[1,I]),其中ni a=ni s或‘-’,并且满足下面三个条件:(1)序列地数目等于矩阵地行数;(2)如果移去每行中地‘-’字符,将得到原来地序列;(3)将不同序列间相同或相似地残基放入同一列,即尽可能将序列间相同或相似残基上下对齐「5」.从上面地定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、插入、删除)地最后结果,它最近似地表示了所有地进化过程.其中删除和插入没有区别,经过适当地插入删除(用insert,delete 表示),可以使相同地保守残基位于同一列上,并使所有地结果序列具有相同地长度.例如:VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWTQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG—2.2 BLOSUM打分规则「6」BLOSUM中得分主要采用Log-odds得分,即同源与非同源地可能性地比率地对数.在BLOSUM中两个残基i与j地得分s(a,b)按照log-odds方程计算,方程如下:1(,)log ab a b p s a b f f =λ-----------------------------------------------(1) 其中, ab p 是指假定残基对a 与b 是同源地, 在已有同源序列比对中出现地目标频率: ,a f f 是指假定残基a 与b 是非同源地与独立地, 残基a 与b 出现在任何一个蛋白质氨基酸序列中地平均背景频率: λ是尺度参数,每个得分四舍五人取整.如果残基对a 与b 是同源地, 则它们出现在同源序列比对中目标频率ab p >a b f f ,s(a,b)<0.如果残基对a 与b 是非同源地, 则它们出现在同源序列比对中目标频率ab p <a b f f ,s(a,b)<0.以相同氨基酸:色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分。
Bioinformatics在生命科学研究中的应用
Bioinformatics在生命科学研究中的应用生物信息学是生命科学与信息科学的交叉学科,通过开发计算机算法、统计学方法和数据库技术,对生命科学中的大规模生物学数据进行分析、解释和管理。
在当今迅速发展的生命科学研究中,生物信息学的应用已经变得至关重要。
本文将探讨生物信息学在生命科学研究中的多个重要领域的应用,包括基因组学、转录组学、蛋白质组学和药物设计。
生物信息学在基因组学中的应用基因组学研究涉及整个基因组的组成、结构、功能和表达。
生物信息学为基因组学研究提供了一套强大的工具和方法。
通过生物信息学技术,科学家们能够分析基因组中的大量DNA序列数据,识别基因和基因的功能元件,预测基因的调控区域,并进行进化分析。
生物信息学还可以用于分析基因组中的遗传变异,探究疾病与遗传因素的关系,推动个性化医学的发展。
生物信息学在转录组学中的应用转录组学研究探究的是细胞或组织中的全部RNA转录本,即基因在特定条件下的表达情况。
生物信息学在转录组学研究中扮演着重要的角色。
通过大规模测序技术,科学家们可以获得大量的转录组数据。
生物信息学技术可以比对这些转录组数据与已知的DNA序列数据库进行分析,帮助我们理解基因的调控机制、鉴定新的基因和预测功能未知的RNA分子。
另外,在癌症研究中,生物信息学分析转录组数据还可以帮助寻找潜在的癌症标志物和预测患者的预后。
生物信息学在蛋白质组学中的应用蛋白质组学研究旨在理解蛋白质的表达、结构和相互作用。
生物信息学在蛋白质质谱数据分析和蛋白质结构预测等方面发挥了关键作用。
蛋白质质谱数据可以通过生物信息学工具进行分析,用于鉴定和定量蛋白质样本中的不同蛋白质,并研究它们之间的相互作用。
此外,生物信息学还可以预测蛋白质的三维结构,帮助科学家理解蛋白质的功能和相互作用机制,以及设计新的药物靶点。
生物信息学在药物设计中的应用药物设计旨在开发新的药物分子以治疗疾病。
生物信息学在药物设计中的应用有助于提高药物研发的效率。
生物信息学名词解释
生物信息学名词解释1、生物信息学:研究大量生物数据复杂关系的学科,其特征就是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2、二级数据库:在一级数据库、实验数据与理论分析的基础上针对特定目标衍生而来,就是对生物学知识与信息的进一步的整理。
3、FASTA序列格式:就是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其她无特殊要求。
4、genbank序列格式:就是GenBank 数据库的基本信息单位,就是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分就是引文区,提供了这个记录的科学依据;第四部分就是核苷酸序列本身,以“//”结尾。
5、Entrez检索系统:就是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6、BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947、查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸与氨基酸之间的类似性)与实际进化距离(如PAM)两类方法。
P299、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910、空位罚分:空位罚分就是为了补偿插入与缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学 实验三 数据库搜索-BLAST
实验三数据库搜索—BLAST1. Nucleotide BLAST在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn 中限制序列搜索范围为272-1420(编码区)。
分别用megablast, discontiguous megablast 和 blastn 进行搜索。
这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256, discontiguous megablast的单词单位默认为11,可选为11和12, blastn单词单位默认为11,可选范围为7,11和15。
Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻找与 query 高度相似的序列; blastn则用于寻找与 query 有一定相似度的序列。
单词单位越小,敏感度越高,也就是说,Megablast敏感度最差,discontiguous megablast 居中,blastn 最高。
Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。
三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具Methods Number Identity(%)Max score Megablast154172-10073.1-2122 discontiguous megablast652763-10044.6-2073 blastn116676310044.6-2073截取30bp的片段进行blastn搜索,默认参数设置如下图:搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下找到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,提高敏感度,而将 E-value 调大,确保有搜索结果出现。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学常用算法简介
➢动态规划算法是一种优化算法, 它本质上是一种有效的穷举法。
➢它的基本想法是最优路径上的 每一段都应该是局部的最优路 径。
➢动态规划算法的典型应用:序 列比对。
序列比对应用举例
➢ 序列组装 ➢ 进化分析 ➢ 保守区发现 ➢ 蛋白质结构与功能预测 ➢ cDNA的基因组定位 ➢ 基因结构与功能分析
序列比对模型
➢ 类型:全局比对与局部比对 ➢ 需考虑的因素:替换,插入,删除 ➢ 例:AGCTA–CGTACATACC
AGCTAGCGTA– –TAGC ➢ 打分系统:替换矩阵。记为:
σ(a,b) 其中a, b为我们考虑的字符集中的元素。
比对算法的目标,
就是找到在给定打 分系统下,得分最 高的比对方式。
动态规划算法(全局比对)
其他DNA打分矩阵 及其对比对结果的影响
➢ 例如:
(a, b)
1,(a b) 3,(a b)
➢ 若得分大于(a罚,分) ,则(可,b得) 到长11的0,,,((有延开较长始 多)) 插入 删除的结果;反之,则得到短的,局部的比对
结果。
蛋白质序列比对的打分矩阵
➢ PAM矩阵(Persent Accepted Mutation): 基于进化模型的打分矩阵。
➢ 表中各列满足
20
M ij 1
j 1
➢ 若fi (i =1~20)表示20种氨基酸在自然界中
的分布,该矩阵还满足20来自fi 1i 1
20
20
f i M ij
f i (1 M ii ) 0 .01
i 1 i j
i 1
20
f i M ii 0.99
i 1
➢ 由于fi 是自然界中氨基酸经过长期进化后形成
生物信息学中的序列比对与进化树构建
生物信息学中的序列比对与进化树构建生物信息学是一门涉及生命科学和计算科学的交叉学科,其应用在分子生物学、生物医学、生态学、进化论、生物技术等诸多领域中。
序列比对和进化树构建是生物信息学的重要组成部分,是理解生物学进化的重要途径之一。
一、序列比对序列比对是将两个或多个蛋白质或核酸序列究竟有多少相同、多少不同进行比较的过程。
序列比对在生物学中极其重要,因为它可以帮助科学家确定两个生物物种之间的相似性,进而推断它们之间的亲缘关系以及共同祖先的时间。
序列比对中最基础和常用的方法是全局比对和局部比对。
全局比对试图比较两个序列的完整长度,一般用于比较相似性较高的序列,它最先被应用于分析DNA和蛋白质,是序列比对过程中最古老、最经典的算法方法。
而局部比对则更注重比较两个序列中的相似区域,忽略其中任何间隔,通常用于比较两个较短的序列或者两个相对较不相关的序列。
例如,在核酸序列比对中,这种算法更适用于获取多个剪接变异或者重复序列之间的相似性。
另外,序列比对有一个关键问题,就是如何准确的衡量两条序列的相似性和相异性。
在这方面有很多方法,例如编辑距离、盒子型、PAM矩阵、BLOSUM 矩阵等等,其中都采用了不同的评分标准。
二、进化树构建进化树(Phylogenetic Tree)是用来表示生物物种间亲缘关系的结构,也称演化树或家谱树。
进化树是通过对基于DNA和RNA等生物分子序列进行分析,推导出各物种之间共同祖先的关系构建起来的,同时它也综合了形态、系统和分子信息等其他生物学数据。
进化树的构建过程中涉及许多算法,其中最基础的是贪心算法。
贪心法从序列的最初状态开始,一步步选择最佳的演化路径,最终得到最优的进化树;而Neighborhood-joining (NJ)算法则是以序列之间的 Jukes-Cantor 模型距离或 Kimura 二参数模型距离为基础,使用最小进化步骤(Minimum Evolution,ME)标准构建进化树,是目前应用比较广泛的算法。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
常用生物信息学软件BLAST
Blast的主程序是blastall。程序的输入文件是query序列(-i 参数)和库文件(-d 参数),比对类型的 选择(-p 参数)和输出文件(-o 参数)由用户指定。其中“-p”参数有 5 种取值: -p blastp:蛋白序列与蛋白库做比对。 -p blastx:核酸序列对蛋白库的比对。 -p blastn:核酸序列对核酸库的比对。 -p tblastn:蛋白序列对核酸库的比对。 -p tblastx:核酸序列对核酸库在蛋白级别的比对。 这些元素就构成了blast的基本运行命令(以blastn为例): blastall -i query.fasta -d database_prefix -o blast.out -p blastn 其中如果"-o"参数缺省,则结果输出方式为屏幕输出。下面以一个blastn比对为例,来说明比对全过程: Query序列(query.fasta): >gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c gene AGGAAGAGGAGCTCCTTTCGATCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA CCTCTGGAGTGCATGGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGGAGATGAAC CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT >gi|45593932|gb|AY551258.1| Oryza sativa precursor microRNA 319b gene CATATTCTTTTAATTTGATGGAAGAAGCGATCGATGGATGGAAGAGAGCGTCCTTCAGTCCACTCATGGG CGGTGCTAGGGTCGAATTAGCTGCCGACTCATTCACCCACATGCCAAGCAAGAAACGCTTGAGATAGCGA AGCTTAGCAGATGAGTGAATGAAGCGGGAGGTAACGTTCCGATCTCGCGCCGTCTTTGCTTGGACTGAAG GGTGCTCCCTCCTCCTCGATCTCTTCGATCTAATTAAGCTACCTTGACAT 库文件Database(db.seq,已经运行formatdb -i db.seq -p F -o T建库): >fake_seq AGGAAGAGGAGCTCCTTTCGTTCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA CCTCTGGAGTGCATGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGCGAGATGAAC CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT 运行命令: blastall -i query.fasta -d db.seq -o blast.out -p blastn 运行结果: BLASTN 2.2.8 [Jan-05-2004] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c gene, complete sequence
生物信息学课后题及答案
生物信息学课后习题及答案(由10级生技一、二班课代表整理)一、绪论1.你认为,什么是生物信息学?采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。
2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于:在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。
(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。
3.人类基因组计划与生物信息学有什么关系?人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。
而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。
4简述人类基因组研究计划的历程。
通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。
1990,人类基因组计划正式启动。
1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。
1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。
Celera公司加入,与公共领域竞争启动水稻基因组计划。
1999,第五届国际公共领域人类基因组测序会议,加快测序速度。
2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。
2001,人类基因组“中国卷”的绘制工作宣告完成。
2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。
2004,人类基因组完成图公布。
(完整word版)生物信息学_复习题及答案(打印)
一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
2020年(生物科技行业)生物信息复习资料
(生物科技行业)生物信息复习资料生物信息名词解释1、相似性:描述序列相关性的量,同源蛋白质总在三维结构上有显著的相似性。
2、壹致性:描述序列相关性的量,俩序列同源时,他们的氨基酸或者核苷酸里通常具有显著的壹致性。
3、生物信息学:20世纪分子生物学和计算机学交叉产生的新学科,用计算机数据库和计算机算法来分析蛋白质、基因和构成生物体的全部脱氧核糖核酸(基因组)。
4、蛋白质组学:对高通量蛋白质数据库进行分析的生物信息学工具和方法。
能够大范围的为蛋白质制定功能,确定蛋白质在哪个特殊生理条件下会出现,确定蛋白质之间的作用。
5、比较基因学:利用生物在进化上的亲缘关系,给予基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达家里和物种进化,来比较他们和人类之间的相似和相异,即比较基因组学。
6、同源(直系/旁系):俩条序列之间有壹个共同的祖先,那么他们就是同源的,直系同源序列是不同物种内的同源序列,来自物种形成的共同祖先基因;旁系同源基因是通过类似基因复制的机制产生的同源序列。
7、Blast:基本局部比对搜索工具,NCBI用来将壹个蛋白质或DNA序列和各种数据库中其他序列进行比对的主要工具,是研究壹个蛋白质或基因的最基本方法之壹。
8、家族(family):壹组金华市相关的共享壹个或多个结构域/重复域的蛋白为壹个家族。
9、结构域(模块)/domain(module):蛋白质中能折叠成特定三维结构的壹段区域。
10、模体(指纹)/motif(fingerprint):蛋白质序列中较短的保守区域,通常指按壹定模式排列的氨基酸残基,通常决定壹个家族。
11、重复:重复区且不但年度折叠成壹个球状的结构域,仍包括壹些短的重复模体序列。
12、PBD数据库:蛋白质和其他大分子结构的仓库,复制搜集蛋白质的结构信息,收录大量蛋白质三维结构文件,记录有原始结构数据,包括院子坐标,配基的化学结构和晶体结构的描述,通过评估模型质量和它们和实验数据的吻合程度来证实结构,目前拥有超过20000个结构记录。
生物信息学题库--精校+整理
生物信息学题库一、名词解释1.生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础, 应用计算机技术, 研究生物学数据的科学。
2.相似性(similarity):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA 碱基或氨基酸残基顺序所占比例的高低。
3.同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。
4.BLAST(Basic Local Alignment Search Tool):基本局部比对搜索工具, 用于相似性搜索的工具, 对需要进行检索的序列与数据库中的每个序列做相似性比较。
5.HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型, 包括序列的匹配, 插入和缺失状态, 并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.一级数据库:一级数据库中的数据直接来源于实验获得的原始数据, 只经过简单的归类整理和注释(投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中)7、二级数据库:对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
8、GenBank: 是具有目录和生物学注释的核酸序列综合公共数据库, 由NCBI构建和维护。
9、EMBL: EMBL 实验室: 欧洲分子生物学实验室。
EMBL 数据库: 是非盈利性学术组织 EMBL 建立的综合性数据库, EMBL 核酸数据库是欧洲最重要的核酸序列数据库, 它定期地与美国的GenBank、日本的 DDBJ 数据库中的数据进行交换, 并同步更新。
10、DDBJ: 日本核酸序列数据库, 是亚洲唯一的核酸序列数据库。
11.Entrez:是由 NCBI 主持的一个数据库检索系统, 它包括核酸, 蛋白以及 Medline 文摘数据库, 在这三个数据库中建立了非常完善的联系。
12.SRS(sequence retrieval system):序列查询系统, 是 EBI 提供的多数据库查询工具之一。
南方医科大学-生物信息学-考试例题-2013
名词解释1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。
7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体.利用数学知识建立各种数学模型;利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(〉)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾.5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列.P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299。
空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910。
空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学名词解释
1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[生工0902] BLOSUM矩阵及其在生物信息学中的应用生物信息学齐阳,汪锴,袁理2011/11/25什么是BLOSUM矩阵?BLOSUM矩阵有什么应用?BLOSUM矩阵及其在生物信息学中的应用齐阳汪锴袁理摘要BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛应用。
本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、应用以及现代算法。
并指出了BLOSUM矩阵的发展前景。
关键词BLOSUM矩阵;生物信息学;应用0 引言序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。
目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。
1BLOSUM矩阵概况序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。
在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变「2」。
在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。
为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数「3」。
当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰。
因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。
一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。
为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率「3」。
目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。
2BLOSUM矩阵的构建2.1多序列比对二维字符矩阵,即A={ni a}(n∈[1,N],i∈[1,I]),其中ni a= ni s或‘-’,并且满足下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的‘-’字符,将得到原来的序列;(3)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐「5」。
从上面的定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、插入、删除)的最后结果,它最近似地表示了所有的进化过程。
其中删除和插入没有区别,经过适当地插入删除(用insert ,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。
例如:VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWTQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG —2.2 BLOSUM 打分规则「6」BLOSUM 中得分主要采用Log-odds 得分,即同源与非同源的可能性的比率的对数。
在BLOSUM 中两个残基i 与j 的得分s (a ,b )按照log-odds 方程计算,方程如下:1(,)log ab a b p s a b f f =λ-----------------------------------------------(1) 其中, ab p 是指假定残基对a 与b 是同源的, 在已有同源序列比对中出现的目标频率: ,a f f 是指假定残基a 与b 是非同源的与独立的, 残基a 与b 出现在任何一个蛋白质氨基酸序列中的平均背景频率: λ是尺度参数,每个得分四舍五人取整.如果残基对a 与b 是同源的, 则它们出现在同源序列比对中目标频率ab p >a b f f ,s(a,b)<0.如果残基对a 与b 是非同源的, 则它们出现在同源序列比对中目标频率ab p <a b f f ,s(a,b)<0.以相同氨基酸: 色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分;不同氨基酸: 丙氨酸/亮氨酸(A/L)比对得分和赖氨酸/谷氨酸(K/E)比对得分为例, 介绍计算过程.p=0.0065,1)色氨酸/色氨酸(W/W)比对得分;在同源比对数据库中,测得wwf=0-013,λ=0.347,代入(1)得s(W/W)=+10.5,取整得+11;w2)亮氨酸/亮氨酸(L/L)比对得分;在同源比对数据库中,测得ll p=0.0371,l f=0.099,λ=0.347,代入(1)得s(L/L)=+3.8,取整得+4;p=0.0044,3)丙氨酸/亮氨酸(A/L)比对得分;在同源比对数据库中,测得ALf=0.074,L f=0.099 λ=0.347,代入(1)得s(K/E)=-1.47,取整得-1;Ap=0.0041,4)赖氨酸/谷氨酸(K/E)比对得分;在同源比对数据库中,测得KEk f=0.058,E f=0.054,λ=0.347,代入(1)得s(K/E)=+0.76,取整得+1;将BLOSUM-1矩阵与自身相乘,可以近似得到高阶BLOSUM单位的替换率。
可以根据序列的长度以及序列间的先验相似程度来选用特定的BLOSUM矩阵,低价BLOSUM矩阵更多是用来比较比较亲缘较远的序列,一般来说,BLOSUM-62矩阵适于用来比较大约具有62%相似度的序列,而BLOSUM-80矩阵更适合于相似度为80%左右的序列「3」。
运用上述计算方法,就可得到BLOSUM62,见Table 1.Blosum62替代矩阵。
3BLOSUM矩阵的应用基于进化原理的氨基酸保守性打分矩阵BLOSUM,原本是用于两条多肽链比对时使用的,其起源于相同的氨基酸模式之间氨基酸的保守性,即某种氨基酸对另一种氨基酸的取代数据,广泛用于蛋白质数据库的搜索。
最近BLOSUM 被成功用于表面抗原分析、T细胞抗原决定簇预测「7」、氨基酸定点突变后蛋白质的稳定性等多种重要科学研究中,对于常用的数据集经过严格的交叉验证,人们已经发现BLOSUM矩阵明显优于目前通常采用的理化特性打分方法和单位打分方法「8」。
随着后基因组时代的到来,适与远亲分析的BLOSUM一定可以有更大的用武之地,以解决生命科学中的诸多难题。
3.1表面抗原分析为分析HBV的表面抗原,对两个病人人群进行跟踪研究:一组是52位患病1年以上的慢性HBV感染携带者,另一组是129位新诊断的患者。
获得这180名患者乙肝表面抗原的DNA序列然后与来自于基因库的168个全长HBV序列比较序列一致性。
乙肝病毒表面抗原亲水区域的多态性用突变大师软件来分析。
参考文献和BLOSUM打分「9」被用来分析潜在改变的抗原性。
3.2 T细胞抗原决定簇预测为进一步预测T细胞抗原决定簇的结构,Huang L和Dai Y做了进一步研究,将BLOSUM矩阵「10」和氨基酸指标向量结合,在BLOSUM 矩阵中代替了氨基酸指标向量的每一个非零项,使相应的值出现在对角线项,这种方法可以把氨基酸的位置和相似度用BLOSUM打分「9」的形式简单表现出来。
3.3磷酸化位点的预测磷酸化作用在多种真核细胞中具有重要的作用,例如有丝分裂、新陈代谢「1」以及信号传导「10」等。
蛋白激酶在蛋白底物中催化特定的受体氨基酸,每一种激酶只催化它特定的底物子集。
蛋白激酶的失活会导致疾病,因此了解特定蛋白激酶的磷酸化作用机制有重要意义。
而利用实验手段或质谱分析「11」、缩氨酸微阵列「12」和特定磷蛋白质水解「13」等方法分析磷酸化蛋白质组都有很多缺陷,但有一种方法在磷酸化位点预测上有明显优势-----基于k邻近的蛋白激酶特异性预测方法「14」,此方法可以对不同激酶家族的磷酸化作用位点进行标注。
由BLOSUM62打分矩阵得到的相似度函数作为系统的输入向量。
3.4蛋白质定点突变稳定性预测准确率定点突变技术的潜在应用领域很广,比如研究蛋白质相互作用位点的结构特性、酶学和酶工程中改造酶的不同活性或动力学特性、改造启动子或DNA 相互作用元件、研究蛋白质晶体结构,以及药物研发、提高蛋白抗原性或稳定性和活性等。
何种程度的变异会影响野生型蛋白的稳定性,以及突变后该蛋白质稳定性的改变,是设计蛋白质或对蛋白质进行点突变分析时的关键。
但是实验测定的精确方法需要昂贵的设备和较长的实验时间,因此现在多使用生物信息学的方法。
有人使用BLOSUM62预测氨基酸定点突变后蛋白质的稳定性,并对常用的数据集经过严格的交叉验证发现其明显优于目前通常采用的理化特性打分方法和单位打分法「8」。
4BLOSUM矩阵的挑战与发展4.1 BLOSUM矩阵与PAM矩阵的比较(1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍。
(2)低价PAM矩阵适合用来比较亲缘较近的序列,而低价BLOSUM矩阵更多是用来比较亲缘较远的序列。
(3)在BLOSUM中,通过统计聚类技术来对相关蛋白质的无空位比对进行分类,并且计算类间的替换率。
当观察某对氨基酸得到的替换率很低时就会带来一些统计问题,而BLOSUM的方法正好能够避免此类问题。
4.2 基于BLOSUM矩阵的一些现代算法由于BLOSUM打分矩阵的上述优点,已被各种现代算法所利用,发挥不同领域的作用于功能。
下面将介绍几种使用BLOSUM打分矩阵最多的算法,对它们的优缺点进行简单阐述。
4.2.1 动态规划算法其指导思想就是在多级过程的每一级上列出各种可行的局部解。
该方法由Needle-man 和Wunsch 于1970 年提出,最初用于求两个序列的最佳比对。